본문 바로가기

Biology20

What is the expected number of occurrences of a k-mer in N sequences, each of length M? 각 길이가 N인 M개의 서열에서 k-mer의 개수를 구하라. K-mer에서 ACGT가 선택되는 확률이 .25로 동일하다고 가정하면 다음과 같이 풀수 있다.전체 길이는 N에서 (k의 길이 - 1)만큼 뺀 값에 M을 곱하면 검색되는 공간이 나온다. 그 후에 총 가능한 k-mer의 조합을 계산하면 되는데, 4^k 의 조합이 생기게 된다. 물론 이느 확률이 같으므로 단순히 ACTG 4가지를 단순히 k번 곱한 형태가 되는데, 확률이 있다면, A, C, G, T 개별 확률이 곱해진 것을 k번씩 곱하면 되겠다. 예), 1000의 길이를 가진, 500개 서열에서 9-mer의 예상되는 개수를 구하라.(1000 - (9 - 1))*500 이 검색 공간262144개의 9-mer 조합검색 공간을 9-mer 조합으로 나누면, .. 2013. 11. 20.
단백질 동형(protein isoform)과 유전자 동형(gene isoform) 단백질 동형: 다른 아미노산 서열을 가진 동일한 기능을 하는 단백질. 문맥에 따라 조금씩 다르게 해석된다.1) 같은 인코딩 단백질들 안에 있는 두개 (혹은 그 이상)의 다른 유전자들이 매우 유사한 경우( 2013. 11. 12.
동적 프로그래밍 (Dynamic Programming, DP) Dynamic programming (DP) is a technique for filling out the memoization table iteratively, instead of using recursion, and we will look at it next. Many people use the terms DP and memoization interchangeably. 동적 프로그래밍 (DP)은 재귀 호출 대신 memoization 테이블을 순차적으로 채우고, 다음 호출에서 이를 이용하는 기법이다. 많은 사람들이 DP와 memoization을 상호 교환하며 이용한다. 출처: http://www.cs.cornell.edu/~wdtseng/icpc/notes/dp1.pdf 2013. 11. 8.
Memization If the function C() is called with parameter i, and we have already computed C(i) once before, we will simply look up its value in the table and avoid spending a lot of running time (again). We will need to initialize the cells of this table with some dummy values that would tell us whether we have computed the value of that cell already or not. This technique is called memoization, and here is .. 2013. 11. 8.