본문 바로가기

Wisdoms131

k-mer로 부터 Bloom Filter (블룸 필터) 생성 k-mer 전체 갯수 * k-mer 당 bit 크기는 bloom filter의 전체 비트 크기가 된다. 블룸 필터는 셋과 마찬가지로 특정 요소가 존재하는지 여부를 판별하는데 사용할 수 있다. 실제 키를 저장하는 것 대신에 키는 비트의 조합으로 변환된다. 그렇기 때문에 메모리 소비양은 줄어들지만, 실제 존재하지 않는 키가 존재하는 것으로 나타나게 될 수 있다. 이를 줄이기 위해서는 해시 함수의 개수를 늘려야 한다. 이는 반드시 다른 종류의 해시 함수를 많이 가질 필요가 있는 게 아니라, 다른 종류의 씨드값을 동일한 해시 함수에 적용함으로써도 얻을 수 있다. k-mer를 읽어들이면서, 해시 함수 갯수만큼 해시 값을 계산하고, 개별 해시 값들에 대해서 블룸 필터 안의 비트 벡터 내에서 인덱스를 구하고, 이 인.. 2014. 8. 2.
서열 데이터로부터 분산 k-mer 빈도 세는 방법 FASTQ의 경우 quality 부분과 read identifier를 제외한 순수한 서열만을 남겨둔다.가령 uncorrected.fq -> uncorrected.read, uncorrected.qualFASTA의 경우 read identifier를 제외한 순수한 서열만을 남겨둔다.가령 uncorrected.fa -> uncorrected.read 위의 conversion을 수행하는 과정에서 max_read_length (가장 긴 read 길이)와 size_of_sequences (전체 서열의 길이) 저장한다.대략적으로 64비트 머신에서 한 k-mer가 2 bit 인코딩 되었다고 가정하면 (한 read 당 리드 길이 - k-mer 크기 + 1) * 64 만큼씩 처리해야할 k-mer의 정보양이 증가한다. 대.. 2014. 7. 31.
연관 평형 (Linkage disequilibrium) 대부분의 복잡한 형질(Trait)은, 비록 전부다 그렇지는 않지만, 몇 개의 Gene이 복합적으로 관여 하여 발현된다. QTL-mapping은 특정한 Chromosome상의 부위가 복잡한 형질(trait) 발현에 중요한 영향을 미친다는 가정을 전제로 하고 있다.QTL은 여러 Gene이 관여하여 복합적으로 나타나는 형질을 분석하여 최종적으로 그 형질에 관여하는 실제 유전자를 알아 내기 위해 수행한다. 이를 위하여 QTL-mapping은 일반적으로 polymorphic GeneticMarker들끼리의 연관성(LinkageAnalysis 또는 degree of covariation)과 표현형질(Phenotype)을 서로 비교 측정하여 만들어 진다.따라서 QTL의 정확성은 부분적으로 polymorphic Gen.. 2014. 2. 7.
bootstrapping 본 글은 스크랩해온 글이다. resampling이란 모분포의 형태를 알 수 없을 때, 현재 갖고 있는 데이터의 일부분을 재추출하여 분포를 만든 후 관측하는 값의 통계적 의미를 확인하는 방법이다. 우선 estimator 에 대해 살펴 보고 넘어 가자. 일련의 데이터가 있을 때, 우리는 그 데이터의 총체적 특성을 나타내는 값으로 보통 '(산술)평균'을 이용한다. 즉, 평균이란 데이터 집합의 특성을 표현하기 위한 수치 중 하나의 예일 뿐이다. 최대, 최소, 중간값, 모드, 표준편차, skew, n-th moment 등 데이터 집합의 특성을 표현하기 위한 값에는 매우 많은 종류가 있다. 이 글에서는, 데이터가 주어지면 그 데이터를 이용하여 하나의 실수값을 계산해 낼 수 있을 때, 그 실수를 estimator 라.. 2014. 2. 6.