본문 바로가기

Bioinformatics61

서열 데이터로부터 분산 k-mer 빈도 세는 방법 FASTQ의 경우 quality 부분과 read identifier를 제외한 순수한 서열만을 남겨둔다.가령 uncorrected.fq -> uncorrected.read, uncorrected.qualFASTA의 경우 read identifier를 제외한 순수한 서열만을 남겨둔다.가령 uncorrected.fa -> uncorrected.read 위의 conversion을 수행하는 과정에서 max_read_length (가장 긴 read 길이)와 size_of_sequences (전체 서열의 길이) 저장한다.대략적으로 64비트 머신에서 한 k-mer가 2 bit 인코딩 되었다고 가정하면 (한 read 당 리드 길이 - k-mer 크기 + 1) * 64 만큼씩 처리해야할 k-mer의 정보양이 증가한다. 대.. 2014. 7. 31.
2차원 MXN 격자에 있는경로의 개수 계산하기 가령 M개의 행과 N개의 열을 가진 격자(grid)를 생각해 보자.이것은 조합을 계산하면 된다.(M+N)C(M) 또는 (M+N)C(N)이 동일한 값을 결과로 도출하게 된다. 이것은 먼저 A가 시작점(왼쪽 상단), B(가 오른쪽 하단)이라고 가정했을 때, A에서 B로 가는 경로는 오른쪽 방향으로 가는 경로는 N만큼 있고, 아래쪽으로 가는 방향으로 가는 경로는 M만큼 있기 때문에 총 경로 개수는 M+N이 있고, 이중에서 중복을 허용하지 않고, 순서는 중요하지 않은 조합을 계산하면 되는 것이다. 조합은 다음과 같이 계산한다. 여기에서 n은 조합을 계산할 대상이 되는 개체의 수를 나타내고, r은 몇 개의 객체를 선택할지를 나타낸다. 가령 16X12의 조합을 계산할 때는, 28C12가 되고 이것을 계산하면, 30.. 2013. 12. 19.
[Linux] find 명령으로 특정 파일 찾아서 여러 명령 실행하기 간혹 우리는 하위 폴더에 있는 동일한 파일에 대해서 동일한 명령을 여러개 수행하고 싶을 때가 있다. 가령, 하위 폴더에 있는 모든 파일들 중에서 "improvement.out"이라는 파일명을 가진 파일의 경로명과 해당 파일의 내용을 출력하려면 어떻게 하면 될까? find . -name "improvement.out" -exec echo \{\} \; -exec cat \{\} \; > improvements.out 이렇게 하면 improvements.out이라는 파일에 해당 파일의 경로와 내용이 담기게 된다. 2013. 12. 4.
[Linux] 하위 폴더에서 파일명 한꺼번에 변경하기 파일명을 한꺼번에 변경하려면 다음과 같이 실행한다. find . -type f | grep -E "filename.txt" | xargs rename 's/filename\.txt$/changedname\.txt/' 이렇게 하면, 현재 경로 하위에 있는 모든 파일 중에 파일명이 "filename.txt"인 파일이 changedname.txt로 변경된다. 2013. 11. 15.