※ 통계학에서의 여러가지 분포(1)은 분포의 종류에 대해서 간단히 설명하며 추후 보완한 자료를 업로드 예정입니다. 따라서, 통계학의 관점의 깊은 수준까지는 다루지 않을 예정입니다.

2. 3. 통계학에서의 표본분포

- 통계학에서 표본분포라는 용어는 하나의 동일한 모집단에서 얻은 여러 샘플에 대한 표본통계량의 분포를 나타낸다. 고전 통계의 대부분은 표본을 가지고 모집단을 추론하는 것과 관련있다.

용어 의미
표본통계량(sample statistic) 더 큰 모집단에서 추출된 표본 데이터들로부터 얻은 측정 지표
데이터 분포(data distribution) 어떤 데이터 집합에서의 각 개별 값의 도수분포
표본분포(sampling distribution) 여러 표본들 혹은 재표본들로부터 얻은 표본통계량의 도수분포
중심극한정리(central limit theorem) 표본크기가 커질수록 표본분포가 정규분포를 따르는 경향
표준오차(standard error) 여러 표본들로부터 얻은 표본통계량의 변량
(개별 데이터 값들의 변량을 뜻하는 표준편차와 혼동하지 말 것)

2. 3. 1. 중심극한정리

- 모집단이 정규분포가 아니더라도, 표본크기가 충분하고 데이터가 정규성을 크게 이탈하지 않는 경우, 여러 표본에서 추출한 평균은 종 모양의 정규곡선을 따른다.

2. 3. 2. 표준오차

- 통계에 대한 표본분포와 변동성을 한마디로 말해주는 단일 측정 지표이다. 표준오차는 표본 값들의 표준편차 $s$와 표본크기 $n$을 기반으로 한 통계량을 이용하여 추정할 수 있다.

$SE=\frac{s}{\sqrt{n}}$

-> 표준오차와 표본크기 사이의 관계를 때로는 n 제곱근의 법칙(square-root of n rule)이라고 한다. 즉 표준오차를 2배로 줄이려면 표본 크기를 4배 증가시켜야 한다.

2. 5. 신뢰구간

용어 의미
신뢰수준(confidence level) 같은 모집단으로부터 같은 방식으로 얻은, 관심 통계량을 포함할 것으로 에상되는, 신뢰구간의 백분율
구간끝점(interval endpoint) 신뢰구간의 최상위, 최하위 끝점

< 부트스트랩 신뢰구간 구하는 법 >

  1. 데이터에서 복원추출 방식으로 크기 n인 표본을 뽑는다(재표본추출).

  2. 재표본추출한 표본에 대해 원하는 통계량을 기록한다.

  3. 1~2단계를 $R$번 반복한다.

  4. $x%$ 신뢰구간을 구하기 위해, $R$개의 재표본 결과로부터 분포의 양쪽 끝에서 $[(100-x)/2]%$만큼 잘라낸다.

  5. 절단한 점들은 $x%$ 부트스트랩 신뢰구간의 양 끝점이다.

- 신뢰수준이 높을수록 구간이 더 넓어진다. 또한, 표본이 작을수록 구간이 넓어진다(즉, 불확실성이 더 커진다.)

2. 6. 정규분포

- 표본통계량 분포가 보통 어떤 일정한 모양이 있다는 사실은 이 분포를 근사화하는 수학 공식을 개발하는 데 강력한 도구가 되었다.

용어 의미
오차(error) 데이터 포인트와 예측값 혹은 평균 사이의 차이
표준화(정규화)하다.(standardize) 평균을 빼고 표준편차로 나눈다.
z 점수(z-score) 개별 데이터 포인트를 정규화한 결과
표준정규분포(standard normal distribution) 평균=0, 표준편차=1인 정규분포
QQ 그림(QQ-plot) 표본분포가 정규분포에 얼마나 가까운지를 보여주는 그림

※ 실제로 전형적인 데이터 과학 프로젝트에서 사용되는 대부분의 변수들, 실제 대부분의 원시 데이터는 전체적으로 정규분포를 따르지 않는다.

2. 6. 1. 표준정규분포와 QQ그림

- 정규분포를 표준정규분포로 변환하는 과정을 정규화(normalization) 또는 표준화(standardization)라고 한다. 이렇게 변환한 값을 z 점수라고 하며, 정규분포를 z 분포라고도 한다.

$Z=\frac{X-\mu}{\sigma}$

- QQ 그림은 표본이 정규분포에 얼마나 가까운지를 시각적으로 판별하는 데 사용된다. QQ 그림은 z 점수를 오름차순으로 정렬하고 각 값의 z 점수를 y축에 표시한다.


※ 통계학에서의 여러가지 분포(1)은 분포의 종류에 대해서 간단히 설명하며 추후 보완한 자료를 업로드 예정입니다. 따라서, 통계학의 관점의 깊은 수준까지는 다루지 않을 예정입니다.

<참고자료>
1. Peter Brucs & Andrew Brucs (2018), 데이터 과학을 위한 통계. 한빛미디어. 이용준 옮김.

미지의 분포를 따를 것으로 추정되는 모집단에서 표본 데이터와 그 경험을 통해 얻은 분포를 얻어내는 것이 표본추출이다. 빅데이터 시대가 되면서 데이터의 질과 적합성을 일정 수준 이상으로 담보할 수도 없으면서 데이터 크기만 늘어나는 것이 오늘날 상황이다. 이런 상황에서, 오히려 다양한 데이터를 효과적으로 다루고 데이터 편향을 최소화하기 위한 방법으로 표본추출의 필요성이 더 커지고 있다.

 

  • 전통적인 통계학 : 강력에 가정에 기초한 이론을 통해 모집단을 밝혀내는 데 초점을 맞춘다.

  • 현대 통계학 : 가정이 더 이상 필요하지 않은 표본에 대한 연구에 초점을 맞춘다.

2. 1. 랜덤표본추출과 표본 편향

용어 의미
표본(sample) 더 큰 데이터 집합으로부터 얻은 부분집합
모집단(population) 어떤 데이터 집합을 구성하는 전체 대상 혹은 전체 집합
N(n) 모집단(표본)의 크기
랜덤표본추출(random sampling) 무작위로 표본을 추출하는 것
층화표본추출(stratified sampling) 모집단을 층으로 나눈 뒤, 각 층에서 무작위로 표본을 추출하는 것
단숨랜덤표본(simple random sample) 모집단 층화 없이 랜덤표본추출로 얻은 표본
표본편향(sample bias) 모집단을 잘못 대표하는 표본
  • 복원추출(with replacement) : 추출 후, 다음번에도 중복 추출이 가능하도록 해당 샘플을 다시 모집단에 포함시킨다.

  • 비복원추출(without replacement) : 추출 후, 한번 뽑힌 원소는 추후 추출에 사용하지 않는다.

- 원래 대표되도록 의도된 모집단으로부터 추출되지 않고 유의미한 비임의 방식으로 표본이 추출되면서 표본 편향이 발생했다. 여기서 비임의(nonrandom)는 아무리 랜덤표본이라고 해도, 어떤 표본도 모집단을 정확하게 대표할 수 없다는 것을 의미한다.

층화표본추출

- 모집단을 여러 층으로 나누고 각 층에서 무작위로 샘플을 추출한다. 이러한 과정에서 각 층에 데이터 불균형이 발생할 수 있다. 이런 경우 가중치를 주는 표본추출을 통해, 계층마다 동일한 표본크기를 얻을 수 있다.

2. 2. 선택 편향

- 데이터를 의식적이든 무의식적이든 선택적으로 고르는 관행을 의미한다.

용어 의미
편향(bias) 계통적 오차
데이터 스누핑(data snooping) 뭔가 흥미로운 것을 찾아 광범위하게 데이터를 살피는 것
방대한 검색 효과
(vast search effect)
중복 데이터 모델링이나 너무 많은 예측변수를 고려하는 모델링에서 비롯되는 편향 혹은 비재현성

- 가설을 구체적으로 명시하고 랜덤표본추출 원칙에 따라 데이터를 수집하면 편향을 피할 수 있다.

- 큰 데이터 집합을 가지고 반복적으로 다른 모델을 만들고 다른 질문을 하다 보면, 언젠가 흥미로운 것을 발견하기 마련이다. 성능을 검증하기 위해 하나 이상의 홀드아웃(holdout) 세트를 이용하면 이를 방지할 수 있다. 또한 엘더는 데이터 마이닝 모델에서 제시하는 예측들을 검증하기 위해, 목푯값 섞기(본질적으로는 순열 검정)라는 것을 추천했다.

평균으로의 회귀(regression to the mean)

- 주어진 어떤 변수를 연속적으로 측정했을 때 나타나는 현상이다. 예외적인 경우가 관찰되면 그다음에는 중간 정도의 경우가 관찰되는 경향이 있다. 따라서 예외 경우를 너무 특별히 생각하고 의미를 부여하는 것은 선택 편향으로 이어질 수 있다.

2. 4. 부트스트랩

- 통계량이나 모델 파라미터(모수)의 표본 분포를 추정하는 쉽고 효과적인 방법은, 현재 있는 표본에서 추가적으로 표본을 복원추출하고 각 표본에 대한 통계량과 모델을 다시 계산하는 것이다. 이러한 절차를 부트스트랩(bootstrap)이라 하며, 데이터나 표본 통계량이 정규분포를 따라야 한다는 꼭 필요하지 않다.

용어 의미
부트스트랩 표본(bootstrap sample) 관측 데이터 집합으로부터 얻은 복원추출 표본
재표본추출(resampling) 관측 데이터로부터 반복해서 표본추출하는 과정. 부트스트랩과 순열(셔플링) 과정을 포함한다.

- 부트스트랩을 통해서 뽑을 때마다 각 원소가 뽑힐 확률은 그대로 유지하면서 무한한 크기의 모집단을 만들어낼 수 있다. 부트스트랩 반복 횟수가 많을수록 표준오차나 신뢰구간에 대한 추정이 더 정확해진다.

 

※ 부트스트랩은 표본크기가 작은 것을 보완하기 위한 것이 아니다. 모집단에서 추가적으로 표본을 뽑는다고 할 때, 그 표본이 얼마나 원래 표본과 비슷할지를 알려줄 뿐이다. -> 추가적인 학습이 필요하다.

2. 4. 1. 재표본추출 대 부트스트래핑

- 재표본추출은 부트스트랩과 더불어 여러 표본이 결합되어 비복원추출을 수행할 수 있는 순열 과정을 포함한다.

 

※ 부트스트랩에 대한 추가적인 게시글을 통해서 깊이 있는 학습이 필요하다.

<참고자료>
1. Peter Brucs & Andrew Brucs (2018), 데이터 과학을 위한 통계. 한빛미디어. 이용준 옮김.

+ Recent posts