본문 바로가기

Bioinformatics61

[Linux] multi FASTA 파일 개별적인 파일로 추출하기 가령 multi FASTA 파일에 긴 contigs나 complete genome sequence가 있을 때, 다음과 같이 하여 개별 라인과 id 별로 파일을 생성할 수 있다. csplit -z [입력 파일 이름] -n=[숫자 갯수] --prefix=[시작 파일 이름] '/^>/' '{*}' 또는csplit -z [입력 파일 이름] --prefix=[시작 파일 이름] -b "_%03d.fa" '/^>/' '{*}' 2015. 12. 14.
[Linux] 현재 폴더 내 전체 FASTA 파일들을 두번째 줄까지 추출하되 길이 제한하기 생명정보학을 파일 형태 중에 FASTA라는 단순한 파일이 있다. 간혹 우리는 현재 폴더 내에 있는 모든 Fasta 파일에 대해서 첫 두줄만 추출하고 싶을 때가 있다. 다만, 염기 서열의 길이가 너무 긴 경우에 조금만 잘라서 추출하고자 한다. find . -type f | xargs -i -n1 awk 'NR=1{print $0;};NR=2{print substr{$0, 1, 100}' {} > all.fa 2015. 7. 30.
[simulation]fast sequential markov coalescent simulation of genomic data under complex evolutionary models 나중에 참고할 때가 있을 지도.. https://github.com/biopython/biopython_docker/blob/master/templates/Biopython-Basichttp://cmpg.unibe.ch/software/fastsimcoal2/ 2015. 7. 22.
[metagenomics] bacteria, virus 모두 다운로드 받기 사실 저번 팁에서 설명한 다운로드 방식은 여러 개의 파일을 함께 받을 때 어떻게 하는지 알려주기 위한 용도 였고, 현실적으로 다운로드 받을 때는 단순히 다음 경로를 이용한다. 박테리아 다운로드 경로ftp://ftp.ncbi.nih.gov/genomes/Bacteria/all.fna.tar.gzftp://ftp.ncbi.nih.gov/genomes/Bacteria_DRAFT/ 바이러스 다운로드 경로ftp://ftp.ncbi.nih.gov/genomes/Viruses/all.fna.tar.gz 균계 다운로드 경로ftp://ftp.ncbi.nih.gov/genomes/Fungi/ DRAFT의 경우에는 이전과 마찬가지로 일일이 다운로드 받아야 한다.여기에서 포맷들은 다음과 같다. *.faa = FASTA Ami.. 2015. 7. 7.