본문 바로가기

Bioinformatics61

Hadoop 1.1.1 클러스터 설정 우분투 12.04(Precise) + JDK 7 + Hive 설치 하둡은 리눅스에서 설정하는 것이 사용하기에 편하기 때문에 우분투 12.04에서 설정하는 것으로 설명한다. 하둡 전용 계정과 그룹 생성 가장 먼저 할 것은 하둡 전용의 계정과 그룹을 만드는 것이다. 루트로 실행할 것을 가정하고 있다. 만약 루트가 아니라면 모든 명령 앞에 sudo를 붙여야 한다. euncheonlim@localhost:~$ addgroup hadoopeuncheonlim@localhost:~$ adduser --ingroup hadoop hadoop 만약 이 계정이 루트 계정 권한 대행으로 동작하게 하려면 sudo 그룹에 추가해 준다. euncheonlim@localhost:~$ adduser hadoop sudo 하둡에서 사용하는 SSH 연결 설정 다음으로 원격에 있는 노드에 접근하기 위.. 2012. 12. 15.
Morphing Match Chain(MMC) 본 문서는 현존하는 압축 프로그램 중 가장 빠른 것으로 보이는 LZ4 알고리즘에 대한 이해를 위해서 해당 알고리즘 저자의 블로그의 내용을 번역한 것이다. 원문은 아래 링크에 있다. http://fastcompression.blogspot.de/p/mmc-morphing-match-chain.html 소개 MMC(Morphing Match Chain)은 2010년 11월에, LZ 압축을 위한 향상된 검색 알고리즘을 위해 개발되었다. 시작은 간단한 해시 체인 방법에서였다. 그것은 여기 포럼 글(http://encode.ru/threads/1155-A-new-match-searching-structure?p=22901&viewfull=1#post22901)에 소개되었고, 새로운 알고리즘으로 선언되었다. (MM.. 2012. 12. 12.
GenomeMapper 그래프 구조 본 내용은 내 동료 Jorg의 diploma thesis의 내용 중 일부를 번역한 것이다. 그래프 구조 이전에 설명했듯이, 지놈 서열은 블록들에 저장된다. 여러 개의 블록으로 분기해 확장되어나가는 서열들을 검색하기 위해서, 연결되어 있는 블록들에 대한 연결 정보를 가지고 있어야 한다. 이런 목적으로, 각 블록 테이블 요소는 양 인접한 블록들의 블록 수를 저장한다. 그런 까닭에, 이 구조는 그래프로 해석될 수 있다. 각 블록은 정점(vertex)으로, 그리고 그 연결은 에지(edge)로 해석된다. 지놈은 이제 염기 문자열들을 포함하고 있을 뿐 아니라, 서로 연결된 블록의 문자열들을 포함하고 있다(그림 2.3 (A)). 그림 2.3. 블록들을 포함하는 그래프 구조로 각 블록은 최대 256개의 염기를 저장한다.. 2012. 11. 29.
GenomeMapper 색인 생성 본 문서는 내 동료 Jorg의 diploma thesis의 내용 중 일부를 번역한 것이다. 색인 구조 생성(mkindex) 이 프로그램은 각 지놈 혹은 조합된 지놈에 대해서 오직 한 번만 수행되어야 한다. 이것은 해시 색인을 생성하여 씨드의 발생과 위치의 빠른 룩업을 가능하게 하고, 참조 서열에 대해 계통([생물]strains)의 다른점들과 관련이 있는 모든 서열 정보를 포함하는 시퀀스 그래프를 생성한다. 입력으로 프로그램은 단지 FASTA 포맷으로 된 참조 서열 하나 혹은 다수의 다른 계통 서열들을 받을 수 있다. 각 계통들은 하나의 분리된 입력 파일 안에 있어야 한다. 이 프로그램은 모든 변이에 대해서 염색체, 서열의 위치, 그리고 계통적 다형성(삽입이 삭제와 SNP보다 더 선호된다)에 따라 오름차순.. 2012. 11. 29.