본문 바로가기
Biology/Technology

인간 지놈 참조 서열 다운로드 받기

by 임은천 2013. 7. 10.

본 글은 http://www.biostars.org/p/1796/ 의 내용 중 실제로 사용할 수 있었던 답변의 내용을 편역하였다.


참조 서열은 보통 fasta 파일 포맷으로 되어 있다. NCBI에서 h19의 기반이 된 GRCh17이라고 불리는 소스를 다운로드를 받을 때의 경로이다. 솔직히 이 서열은 염색체 별로 나눠져 있어서 바로 사용하기에는 귀찮다. 즉, 서열들을 수동으로 모두 합쳐 준 후에 사용할 수 있다.


ftp://ftp.ncbi.nlm.nih.gov/genbank/genomes/Eukaryotes/vertebrates_mammals/Homo_sapiens/GRCh37/Primary_Assembly/assembled_chromosomes/FASTA/


다음으로 미리 만들어진 서열을 찾아 보면, 1000 지놈 프로젝트 경로를 찾아 볼 수 있다.


ftp://ftp-trace.ncbi.nih.gov/1000genomes/ftp/technical/reference/


여기에서 받아야 하는 파일은 human_g1k_v37.fasta.gz 와 같은 이름을 가졌다. 가령 다음과 같이 다운로드 받고 압축 해제 한다.


wget ftp://ftp-trace.ncbi.nih.gov/1000genomes/ftp/technical/reference/human_g1k_v37.fasta.gz

gunzip human_g1k_v37.fasta.gz


본 글을 쓰는 사람과 같이 유럽에 있다면, ENSEMBL을 이용할 수 있다.



그런데 여기에도 파일이 많다. 어떤 파일을 받아야 하는가? 모조리 다 있는 파일은  Homo_sapiens.GRCh37.72.dna_rm.toplevel.fa.gz 이나 Homo_sapiens.GRCh37.72.dna_sm.toplevel.fa.gz의 파일명을 가진다. 여기에서 차이점은 rm은 하드 마스크된 서열이라고 해서, 염기가 N값으로 변경된 경우를 나타내고, sm은 소프트 마스크된 서열이라고 해서 염기가 소문자 서열을 가지고 있다. 하지만, 말했듯이 여기에는 모든 서열이 다 있기 때문에 일반적인 분석을 목적으로 하는 경우에는 Homo_sapiens.GRCh37.72.dna_rm.primary_assembly.fa.gz 이나 Homo_sapiens.GRCh37.72.dna_sm.primary_assembly.fa.gz와 같은 이름을 가진 파일을 다운로드 받아서 이용하길 바란다.

wget ftp://ftp.ensembl.org/pub/current_fasta/homo_sapiens/dna/Homo_sapiens.GRCh37.72.dna_rm.primary_assembly.fa.gz
gunzip Homo_sapiens.GRCh37.72.dna_rm.primary_assembly.fa.gz


댓글