본문 바로가기

전체 글131

[Linux] multi FASTA 파일 개별적인 파일로 추출하기 가령 multi FASTA 파일에 긴 contigs나 complete genome sequence가 있을 때, 다음과 같이 하여 개별 라인과 id 별로 파일을 생성할 수 있다. csplit -z [입력 파일 이름] -n=[숫자 갯수] --prefix=[시작 파일 이름] '/^>/' '{*}' 또는csplit -z [입력 파일 이름] --prefix=[시작 파일 이름] -b "_%03d.fa" '/^>/' '{*}' 2015. 12. 14.
[Linux] 현재 폴더 내 전체 FASTA 파일들을 두번째 줄까지 추출하되 길이 제한하기 생명정보학을 파일 형태 중에 FASTA라는 단순한 파일이 있다. 간혹 우리는 현재 폴더 내에 있는 모든 Fasta 파일에 대해서 첫 두줄만 추출하고 싶을 때가 있다. 다만, 염기 서열의 길이가 너무 긴 경우에 조금만 잘라서 추출하고자 한다. find . -type f | xargs -i -n1 awk 'NR=1{print $0;};NR=2{print substr{$0, 1, 100}' {} > all.fa 2015. 7. 30.
[Linux] 현재 디렉토리의 이름만을 추출하는 방법 현재 디렉토리의 이름만을 추출하는 방법이다. 즉, 절대 주소에서 현재 주소의 이름 부분(제일 끝에 있는)을 추출하는 것이다. NAME_OF_PWD=${PWD##*/} 2015. 7. 25.
[linux] 가장 말단의 디렉토리만 리스팅하기 간혹 특정 폴더 하위에 있는 모든 폴더 중에서 그 아래에 아무런 자식 폴더가 없는 폴더(leaf folder)만을 리스팅하고 싶을 때가 있다. 그럴 때 사용하는 명령이다. find [작업폴더] -type d -links 2 이렇게 하면, 가장 말단의 폴더만을 나열해서 작업할 수 있다. 2015. 7. 25.