본문 바로가기

occurrence1

서열 데이터로부터 분산 k-mer 빈도 세는 방법 FASTQ의 경우 quality 부분과 read identifier를 제외한 순수한 서열만을 남겨둔다.가령 uncorrected.fq -> uncorrected.read, uncorrected.qualFASTA의 경우 read identifier를 제외한 순수한 서열만을 남겨둔다.가령 uncorrected.fa -> uncorrected.read 위의 conversion을 수행하는 과정에서 max_read_length (가장 긴 read 길이)와 size_of_sequences (전체 서열의 길이) 저장한다.대략적으로 64비트 머신에서 한 k-mer가 2 bit 인코딩 되었다고 가정하면 (한 read 당 리드 길이 - k-mer 크기 + 1) * 64 만큼씩 처리해야할 k-mer의 정보양이 증가한다. 대.. 2014. 7. 31.

이전 1 다음

티스토리툴바