본문 바로가기
Biology/Questions

What is the expected number of occurrences of a k-mer in N sequences, each of length M?

by 임은천 2013. 11. 20.

각 길이가 N인 M개의 서열에서 k-mer의 개수를 구하라. K-mer에서 ACGT가 선택되는 확률이 .25로 동일하다고 가정하면 다음과 같이 풀수 있다.

전체 길이는 N에서 (k의 길이 - 1)만큼 뺀 값에 M을 곱하면 검색되는 공간이 나온다. 그 후에 총 가능한 k-mer의 조합을 계산하면 되는데, 4^k 의 조합이 생기게 된다. 물론 이느 확률이 같으므로 단순히 ACTG 4가지를 단순히 k번 곱한 형태가 되는데, 확률이 있다면, A, C, G, T 개별 확률이 곱해진 것을 k번씩 곱하면 되겠다.


예), 1000의 길이를 가진, 500개 서열에서 9-mer의 예상되는 개수를 구하라.

(1000 - (9 - 1))*500 이 검색 공간

262144개의 9-mer 조합

검색 공간을 9-mer 조합으로 나누면, 1.892089844 정도 나온다.

댓글