Algorithm2 서열 데이터로부터 분산 k-mer 빈도 세는 방법 FASTQ의 경우 quality 부분과 read identifier를 제외한 순수한 서열만을 남겨둔다.가령 uncorrected.fq -> uncorrected.read, uncorrected.qualFASTA의 경우 read identifier를 제외한 순수한 서열만을 남겨둔다.가령 uncorrected.fa -> uncorrected.read 위의 conversion을 수행하는 과정에서 max_read_length (가장 긴 read 길이)와 size_of_sequences (전체 서열의 길이) 저장한다.대략적으로 64비트 머신에서 한 k-mer가 2 bit 인코딩 되었다고 가정하면 (한 read 당 리드 길이 - k-mer 크기 + 1) * 64 만큼씩 처리해야할 k-mer의 정보양이 증가한다. 대.. 2014. 7. 31. Morphing Match Chain(MMC) 본 문서는 현존하는 압축 프로그램 중 가장 빠른 것으로 보이는 LZ4 알고리즘에 대한 이해를 위해서 해당 알고리즘 저자의 블로그의 내용을 번역한 것이다. 원문은 아래 링크에 있다. http://fastcompression.blogspot.de/p/mmc-morphing-match-chain.html 소개 MMC(Morphing Match Chain)은 2010년 11월에, LZ 압축을 위한 향상된 검색 알고리즘을 위해 개발되었다. 시작은 간단한 해시 체인 방법에서였다. 그것은 여기 포럼 글(http://encode.ru/threads/1155-A-new-match-searching-structure?p=22901&viewfull=1#post22901)에 소개되었고, 새로운 알고리즘으로 선언되었다. (MM.. 2012. 12. 12. 이전 1 다음