본문 바로가기

Machine Learning14

bootstrapping 본 글은 스크랩해온 글이다. resampling이란 모분포의 형태를 알 수 없을 때, 현재 갖고 있는 데이터의 일부분을 재추출하여 분포를 만든 후 관측하는 값의 통계적 의미를 확인하는 방법이다. 우선 estimator 에 대해 살펴 보고 넘어 가자. 일련의 데이터가 있을 때, 우리는 그 데이터의 총체적 특성을 나타내는 값으로 보통 '(산술)평균'을 이용한다. 즉, 평균이란 데이터 집합의 특성을 표현하기 위한 수치 중 하나의 예일 뿐이다. 최대, 최소, 중간값, 모드, 표준편차, skew, n-th moment 등 데이터 집합의 특성을 표현하기 위한 값에는 매우 많은 종류가 있다. 이 글에서는, 데이터가 주어지면 그 데이터를 이용하여 하나의 실수값을 계산해 낼 수 있을 때, 그 실수를 estimator 라.. 2014. 2. 6.
서로소(Pairwise Disjoint Set) 와 파티션(Partition) 서로소(pairwise disjoint set)은 두 집합이 공유하는 요소가 없는 집합의 모음이다 (예를 들어, 그들의 교집합이 공집합인 경우). 가령, 다음의 집합의 모음들은 서로소들이다:{ }, {1, 2, 5}, {3, 6}, {4, 9} 여기에 서로소가 아닌 집합 모음이 있다:{2, 6, 7}, {6, 7, 9}, {3} 이 집합들은 서로소가 아닌데, 첫째와 둘째 집합의 교집합이 공집합이 아니기 때문이다({6, 7}). (원문이 조금 이상해서 수정함) 서로소의 합집합이 원래 집합이되는 부분집합들의 집합을 파티션이라고 부른다. 예를 들어, 다음은 집합 {1, 2, 3, 4, 5}의 파티션이다:{{1, 2}, {3}, {4, 5}} A pairwise disjoint collection (set) o.. 2013. 11. 12.