본문 바로가기

Wisdoms131

프레드 품질 점수(Phred quality score) 본 내용은 http://www.somewhereville.com/?tag=phred-quality-score의 데이터를 보인다. 프레드 품질 점수는 에러가 발생할 확률을 계산하기 위해서 사용된다. FASTAQ나 QSEQ 파일 등을 살펴 보면 아스키 표현 형태로 되어 있고, 이 값은 각각 사용된 퀄리티 값에 따라서 각각의 염기가 에러일 확률로 나타난다. 프레드 품질 점수(Q), 오류 염기 확률, 생어, 일루미나 1.3+ 아스키 형태 프레드 Q 오류 염기 확률 생어 (Q+33) 값 생어 아스키 일루미나 1.3+ (Q+64) 값 일루미나 1.3+ 아스키 001.0000000000033!064@010.7943282347034“065A020.6309573445035#066B030.5011872336036$067C.. 2013. 4. 3.
[간략]은닉 마르코프 모델(Hidden Markov Model)과 비터비(Viterbi) 알고리즘의 생물학 이용 최근에 여러 가지 자료 구조와 알고리즘을 보다가 은닉 마르코프 모델과 비터비 알고리즘을 보게 되었다. 이런 알고리즘을 왜 사용하는 걸까? 라는 고민에 이것 저것 찾아 보다가 정리를 할 수 있게 되어 간략하게 적게 되었다. 가령 생물 정보학에서 자주 다루게 되는 DNA 염기서열이 다음과 생성(output)이 되었다고 하자. s = "ATCGATCGTTTCATTAGTATTCATGCT" 이 서열에는 총 4가지 문자가 사용되었다. 그렇다면, 이런 서열을 생성하는 동안 각 순간에 염기 변이 확률 같은 것이 있지 않을까? 확률로써 염기의 전이들을 표현하고 싶다면, 그에 합당한 모델이 있어야 한다. 이 때 우리는 은닉 마르코프 모델(HMM)을 사용할 수 있다. 예를 들어, 우리는 다음과 같이 은닉 마르코프 모델을 정.. 2013. 4. 3.
일반화된 접미사 트리 구현(다중 시퀀스로 부터) Java 본 문서는 Bogdan Dorohonceanu씨와 Craig Nevill-Manning 교수님에 의해 2000년 7월 1일에 의해 쓰인 내용을 편역하였다. http://www.drdobbs.com/database/a-practical-suffix-tree-implementation/184404184?pgno=1 접미사 트리는 문자열 검색에 사용된다. 우리 저자들은 이론적으로 언급된 시간 복잡도를 유지하면서 최소한의 자원을 가지고 어떻게 일반화된 접미사 트리 자료 구조를 생성하는지 설명한다. 보그단씨는 대학원 조교이고, 크레이그씨는 Rutgers 대학교의 컴퓨터 과학과 교수님이시다. 그들은 각각 dbogdan@caip.rutgers.edu and nevill@cs.rutgers.edu 로 연락할 수 있다... 2013. 3. 28.
STL map 값으로 정렬(sort by value) 본 문서는 다음의 내용을 참고하여 실제로 사용될 수 있는 코드만을 정리했다. http://stackoverflow.com/questions/279854/how-do-i-sort-a-vector-of-pairs-based-on-the-second-element-of-the-pair 일단 map에 있는 값을 vector로 복사한다. std::vector vec(map.begin(), map.end()); 다음으로 정렬을 수행한다.부스트(boost)를 이용할 경우 다음과 같다. std::sort 2013. 3. 8.