본문 바로가기

Bioinformatics/Tip4

[Linux] multi FASTA 파일 개별적인 파일로 추출하기 가령 multi FASTA 파일에 긴 contigs나 complete genome sequence가 있을 때, 다음과 같이 하여 개별 라인과 id 별로 파일을 생성할 수 있다. csplit -z [입력 파일 이름] -n=[숫자 갯수] --prefix=[시작 파일 이름] '/^>/' '{*}' 또는csplit -z [입력 파일 이름] --prefix=[시작 파일 이름] -b "_%03d.fa" '/^>/' '{*}' 2015. 12. 14.
[Linux] 현재 폴더 내 전체 FASTA 파일들을 두번째 줄까지 추출하되 길이 제한하기 생명정보학을 파일 형태 중에 FASTA라는 단순한 파일이 있다. 간혹 우리는 현재 폴더 내에 있는 모든 Fasta 파일에 대해서 첫 두줄만 추출하고 싶을 때가 있다. 다만, 염기 서열의 길이가 너무 긴 경우에 조금만 잘라서 추출하고자 한다. find . -type f | xargs -i -n1 awk 'NR=1{print $0;};NR=2{print substr{$0, 1, 100}' {} > all.fa 2015. 7. 30.
[metagenomics] bacteria, virus 모두 다운로드 받기 사실 저번 팁에서 설명한 다운로드 방식은 여러 개의 파일을 함께 받을 때 어떻게 하는지 알려주기 위한 용도 였고, 현실적으로 다운로드 받을 때는 단순히 다음 경로를 이용한다. 박테리아 다운로드 경로ftp://ftp.ncbi.nih.gov/genomes/Bacteria/all.fna.tar.gzftp://ftp.ncbi.nih.gov/genomes/Bacteria_DRAFT/ 바이러스 다운로드 경로ftp://ftp.ncbi.nih.gov/genomes/Viruses/all.fna.tar.gz 균계 다운로드 경로ftp://ftp.ncbi.nih.gov/genomes/Fungi/ DRAFT의 경우에는 이전과 마찬가지로 일일이 다운로드 받아야 한다.여기에서 포맷들은 다음과 같다. *.faa = FASTA Ami.. 2015. 7. 7.
bacteria fungi 다운로드 받기 다운로드는 다음 경로를 통해서 받을 수 있다. ftp://ftp.ensemblgenomes.org/pub/current/ 가장 최근의 release에 접근할 수 있다.다음과 같이 파일 리스트를 먼저 만든다. 박테리아의 경우 파일이 많기 때문에 약간 다른 명령을 이용한다. lftp -c "open ftp.ensemblgenomes.org:/pub/current/bacteria/fasta && ls -Rl | grep dna | grep -v cdna && exit" > bacteria_fileswget -A "*.gz" -r --spider ftp://ftp.ensemblgenomes.org/pub/current/fungi/fasta/ > fungi_lists 2>&1wget -A "*.gz" -r --s.. 2015. 5. 21.