본 글은 http://www.biostars.org/p/1796/ 의 내용 중 실제로 사용할 수 있었던 답변의 내용을 편역하였다.
참조 서열은 보통 fasta 파일 포맷으로 되어 있다. NCBI에서 h19의 기반이 된 GRCh17이라고 불리는 소스를 다운로드를 받을 때의 경로이다. 솔직히 이 서열은 염색체 별로 나눠져 있어서 바로 사용하기에는 귀찮다. 즉, 서열들을 수동으로 모두 합쳐 준 후에 사용할 수 있다.
ftp://ftp.ncbi.nlm.nih.gov/genbank/genomes/Eukaryotes/vertebrates_mammals/Homo_sapiens/GRCh37/Primary_Assembly/assembled_chromosomes/FASTA/
다음으로 미리 만들어진 서열을 찾아 보면, 1000 지놈 프로젝트 경로를 찾아 볼 수 있다.
ftp://ftp-trace.ncbi.nih.gov/1000genomes/ftp/technical/reference/
여기에서 받아야 하는 파일은 human_g1k_v37.fasta.gz 와 같은 이름을 가졌다. 가령 다음과 같이 다운로드 받고 압축 해제 한다.
wget ftp://ftp-trace.ncbi.nih.gov/1000genomes/ftp/technical/reference/human_g1k_v37.fasta.gz
gunzip human_g1k_v37.fasta.gz
본 글을 쓰는 사람과 같이 유럽에 있다면, ENSEMBL을 이용할 수 있다.
댓글