6. 데이터와 표본

2020. 10. 6. 20:04

미지의 분포를 따를 것으로 추정되는 모집단에서 표본 데이터와 그 경험을 통해 얻은 분포를 얻어내는 것이 표본추출이다. 빅데이터 시대가 되면서 데이터의 질과 적합성을 일정 수준 이상으로 담보할 수도 없으면서 데이터 크기만 늘어나는 것이 오늘날 상황이다. 이런 상황에서, 오히려 다양한 데이터를 효과적으로 다루고 데이터 편향을 최소화하기 위한 방법으로 표본추출의 필요성이 더 커지고 있다.

전통적인 통계학 : 강력에 가정에 기초한 이론을 통해 모집단을 밝혀내는 데 초점을 맞춘다.
현대 통계학 : 가정이 더 이상 필요하지 않은 표본에 대한 연구에 초점을 맞춘다.

2. 1. 랜덤표본추출과 표본 편향

용어	의미
표본(sample)	더 큰 데이터 집합으로부터 얻은 부분집합
모집단(population)	어떤 데이터 집합을 구성하는 전체 대상 혹은 전체 집합
N(n)	모집단(표본)의 크기
랜덤표본추출(random sampling)	무작위로 표본을 추출하는 것
층화표본추출(stratified sampling)	모집단을 층으로 나눈 뒤, 각 층에서 무작위로 표본을 추출하는 것
단숨랜덤표본(simple random sample)	모집단 층화 없이 랜덤표본추출로 얻은 표본
표본편향(sample bias)	모집단을 잘못 대표하는 표본

복원추출(with replacement) : 추출 후, 다음번에도 중복 추출이 가능하도록 해당 샘플을 다시 모집단에 포함시킨다.
비복원추출(without replacement) : 추출 후, 한번 뽑힌 원소는 추후 추출에 사용하지 않는다.

- 원래 대표되도록 의도된 모집단으로부터 추출되지 않고 유의미한 비임의 방식으로 표본이 추출되면서 표본 편향이 발생했다. 여기서 비임의(nonrandom)는 아무리 랜덤표본이라고 해도, 어떤 표본도 모집단을 정확하게 대표할 수 없다는 것을 의미한다.

층화표본추출

- 모집단을 여러 층으로 나누고 각 층에서 무작위로 샘플을 추출한다. 이러한 과정에서 각 층에 데이터 불균형이 발생할 수 있다. 이런 경우 가중치를 주는 표본추출을 통해, 계층마다 동일한 표본크기를 얻을 수 있다.

2. 2. 선택 편향

- 데이터를 의식적이든 무의식적이든 선택적으로 고르는 관행을 의미한다.

용어	의미
편향(bias)	계통적 오차
데이터 스누핑(data snooping)	뭔가 흥미로운 것을 찾아 광범위하게 데이터를 살피는 것
방대한 검색 효과 (vast search effect)	중복 데이터 모델링이나 너무 많은 예측변수를 고려하는 모델링에서 비롯되는 편향 혹은 비재현성

- 가설을 구체적으로 명시하고 랜덤표본추출 원칙에 따라 데이터를 수집하면 편향을 피할 수 있다.

- 큰 데이터 집합을 가지고 반복적으로 다른 모델을 만들고 다른 질문을 하다 보면, 언젠가 흥미로운 것을 발견하기 마련이다. 성능을 검증하기 위해 하나 이상의 홀드아웃(holdout) 세트를 이용하면 이를 방지할 수 있다. 또한 엘더는 데이터 마이닝 모델에서 제시하는 예측들을 검증하기 위해, 목푯값 섞기(본질적으로는 순열 검정)라는 것을 추천했다.

평균으로의 회귀(regression to the mean)

- 주어진 어떤 변수를 연속적으로 측정했을 때 나타나는 현상이다. 예외적인 경우가 관찰되면 그다음에는 중간 정도의 경우가 관찰되는 경향이 있다. 따라서 예외 경우를 너무 특별히 생각하고 의미를 부여하는 것은 선택 편향으로 이어질 수 있다.

2. 4. 부트스트랩

- 통계량이나 모델 파라미터(모수)의 표본 분포를 추정하는 쉽고 효과적인 방법은, 현재 있는 표본에서 추가적으로 표본을 복원추출하고 각 표본에 대한 통계량과 모델을 다시 계산하는 것이다. 이러한 절차를 부트스트랩(bootstrap)이라 하며, 데이터나 표본 통계량이 정규분포를 따라야 한다는 꼭 필요하지 않다.

용어	의미
부트스트랩 표본(bootstrap sample)	관측 데이터 집합으로부터 얻은 복원추출 표본
재표본추출(resampling)	관측 데이터로부터 반복해서 표본추출하는 과정. 부트스트랩과 순열(셔플링) 과정을 포함한다.

- 부트스트랩을 통해서 뽑을 때마다 각 원소가 뽑힐 확률은 그대로 유지하면서 무한한 크기의 모집단을 만들어낼 수 있다. 부트스트랩 반복 횟수가 많을수록 표준오차나 신뢰구간에 대한 추정이 더 정확해진다.

※ 부트스트랩은 표본크기가 작은 것을 보완하기 위한 것이 아니다. 모집단에서 추가적으로 표본을 뽑는다고 할 때, 그 표본이 얼마나 원래 표본과 비슷할지를 알려줄 뿐이다. -> 추가적인 학습이 필요하다.

2. 4. 1. 재표본추출 대 부트스트래핑

- 재표본추출은 부트스트랩과 더불어 여러 표본이 결합되어 비복원추출을 수행할 수 있는 순열 과정을 포함한다.

※ 부트스트랩에 대한 추가적인 게시글을 통해서 깊이 있는 학습이 필요하다.

<참고자료>
1. Peter Brucs & Andrew Brucs (2018), 데이터 과학을 위한 통계. 한빛미디어. 이용준 옮김.

'공부 > 데이터 과학을 위한 통계(한빛미디어)' 카테고리의 다른 글

8. 통계학에서의 여러가지 분포(2) (0)	2020.10.09
7. 통계학에서의 여러가지 분포(1) (0)	2020.10.08
5. 다변수 탐색 (0)	2020.10.06
4. 상관관계 (0)	2020.10.06
3. 탐색적 데이터 분석(EDA) (0)	2020.10.05

Dasein's ‎Archive