각 길이가 N인 M개의 서열에서 k-mer의 개수를 구하라. K-mer에서 ACGT가 선택되는 확률이 .25로 동일하다고 가정하면 다음과 같이 풀수 있다.
전체 길이는 N에서 (k의 길이 - 1)만큼 뺀 값에 M을 곱하면 검색되는 공간이 나온다. 그 후에 총 가능한 k-mer의 조합을 계산하면 되는데, 4^k 의 조합이 생기게 된다. 물론 이느 확률이 같으므로 단순히 ACTG 4가지를 단순히 k번 곱한 형태가 되는데, 확률이 있다면, A, C, G, T 개별 확률이 곱해진 것을 k번씩 곱하면 되겠다.
예), 1000의 길이를 가진, 500개 서열에서 9-mer의 예상되는 개수를 구하라.
(1000 - (9 - 1))*500 이 검색 공간
262144개의 9-mer 조합
검색 공간을 9-mer 조합으로 나누면, 1.892089844 정도 나온다.
댓글