※ 통계학에서의 여러가지 분포(1)은 분포의 종류에 대해서 간단히 설명하며 추후 보완한 자료를 업로드 예정입니다. 따라서, 통계학의 관점의 깊은 수준까지는 다루지 않을 예정입니다.

2. 3. 통계학에서의 표본분포

- 통계학에서 표본분포라는 용어는 하나의 동일한 모집단에서 얻은 여러 샘플에 대한 표본통계량의 분포를 나타낸다. 고전 통계의 대부분은 표본을 가지고 모집단을 추론하는 것과 관련있다.

용어 의미
표본통계량(sample statistic) 더 큰 모집단에서 추출된 표본 데이터들로부터 얻은 측정 지표
데이터 분포(data distribution) 어떤 데이터 집합에서의 각 개별 값의 도수분포
표본분포(sampling distribution) 여러 표본들 혹은 재표본들로부터 얻은 표본통계량의 도수분포
중심극한정리(central limit theorem) 표본크기가 커질수록 표본분포가 정규분포를 따르는 경향
표준오차(standard error) 여러 표본들로부터 얻은 표본통계량의 변량
(개별 데이터 값들의 변량을 뜻하는 표준편차와 혼동하지 말 것)

2. 3. 1. 중심극한정리

- 모집단이 정규분포가 아니더라도, 표본크기가 충분하고 데이터가 정규성을 크게 이탈하지 않는 경우, 여러 표본에서 추출한 평균은 종 모양의 정규곡선을 따른다.

2. 3. 2. 표준오차

- 통계에 대한 표본분포와 변동성을 한마디로 말해주는 단일 측정 지표이다. 표준오차는 표본 값들의 표준편차 $s$와 표본크기 $n$을 기반으로 한 통계량을 이용하여 추정할 수 있다.

$SE=\frac{s}{\sqrt{n}}$

-> 표준오차와 표본크기 사이의 관계를 때로는 n 제곱근의 법칙(square-root of n rule)이라고 한다. 즉 표준오차를 2배로 줄이려면 표본 크기를 4배 증가시켜야 한다.

2. 5. 신뢰구간

용어 의미
신뢰수준(confidence level) 같은 모집단으로부터 같은 방식으로 얻은, 관심 통계량을 포함할 것으로 에상되는, 신뢰구간의 백분율
구간끝점(interval endpoint) 신뢰구간의 최상위, 최하위 끝점

< 부트스트랩 신뢰구간 구하는 법 >

  1. 데이터에서 복원추출 방식으로 크기 n인 표본을 뽑는다(재표본추출).

  2. 재표본추출한 표본에 대해 원하는 통계량을 기록한다.

  3. 1~2단계를 $R$번 반복한다.

  4. $x%$ 신뢰구간을 구하기 위해, $R$개의 재표본 결과로부터 분포의 양쪽 끝에서 $[(100-x)/2]%$만큼 잘라낸다.

  5. 절단한 점들은 $x%$ 부트스트랩 신뢰구간의 양 끝점이다.

- 신뢰수준이 높을수록 구간이 더 넓어진다. 또한, 표본이 작을수록 구간이 넓어진다(즉, 불확실성이 더 커진다.)

2. 6. 정규분포

- 표본통계량 분포가 보통 어떤 일정한 모양이 있다는 사실은 이 분포를 근사화하는 수학 공식을 개발하는 데 강력한 도구가 되었다.

용어 의미
오차(error) 데이터 포인트와 예측값 혹은 평균 사이의 차이
표준화(정규화)하다.(standardize) 평균을 빼고 표준편차로 나눈다.
z 점수(z-score) 개별 데이터 포인트를 정규화한 결과
표준정규분포(standard normal distribution) 평균=0, 표준편차=1인 정규분포
QQ 그림(QQ-plot) 표본분포가 정규분포에 얼마나 가까운지를 보여주는 그림

※ 실제로 전형적인 데이터 과학 프로젝트에서 사용되는 대부분의 변수들, 실제 대부분의 원시 데이터는 전체적으로 정규분포를 따르지 않는다.

2. 6. 1. 표준정규분포와 QQ그림

- 정규분포를 표준정규분포로 변환하는 과정을 정규화(normalization) 또는 표준화(standardization)라고 한다. 이렇게 변환한 값을 z 점수라고 하며, 정규분포를 z 분포라고도 한다.

$Z=\frac{X-\mu}{\sigma}$

- QQ 그림은 표본이 정규분포에 얼마나 가까운지를 시각적으로 판별하는 데 사용된다. QQ 그림은 z 점수를 오름차순으로 정렬하고 각 값의 z 점수를 y축에 표시한다.


※ 통계학에서의 여러가지 분포(1)은 분포의 종류에 대해서 간단히 설명하며 추후 보완한 자료를 업로드 예정입니다. 따라서, 통계학의 관점의 깊은 수준까지는 다루지 않을 예정입니다.

<참고자료>
1. Peter Brucs & Andrew Brucs (2018), 데이터 과학을 위한 통계. 한빛미디어. 이용준 옮김.

+ Recent posts