※ 통계학에서의 여러가지 분포(1)은 분포의 종류에 대해서 간단히 설명하며 추후 보완한 자료를 업로드 예정입니다. 따라서, 통계학의 관점의 깊은 수준까지는 다루지 않을 예정입니다.
2. 3. 통계학에서의 표본분포
- 통계학에서 표본분포라는 용어는 하나의 동일한 모집단에서 얻은 여러 샘플에 대한 표본통계량의 분포를 나타낸다. 고전 통계의 대부분은 표본을 가지고 모집단을 추론하는 것과 관련있다.
용어 | 의미 |
표본통계량(sample statistic) | 더 큰 모집단에서 추출된 표본 데이터들로부터 얻은 측정 지표 |
데이터 분포(data distribution) | 어떤 데이터 집합에서의 각 개별 값의 도수분포 |
표본분포(sampling distribution) | 여러 표본들 혹은 재표본들로부터 얻은 표본통계량의 도수분포 |
중심극한정리(central limit theorem) | 표본크기가 커질수록 표본분포가 정규분포를 따르는 경향 |
표준오차(standard error) | 여러 표본들로부터 얻은 표본통계량의 변량 (개별 데이터 값들의 변량을 뜻하는 표준편차와 혼동하지 말 것) |
2. 3. 1. 중심극한정리
- 모집단이 정규분포가 아니더라도, 표본크기가 충분하고 데이터가 정규성을 크게 이탈하지 않는 경우, 여러 표본에서 추출한 평균은 종 모양의 정규곡선을 따른다.
2. 3. 2. 표준오차
- 통계에 대한 표본분포와 변동성을 한마디로 말해주는 단일 측정 지표이다. 표준오차는 표본 값들의 표준편차 $s$와 표본크기 $n$을 기반으로 한 통계량을 이용하여 추정할 수 있다.
$SE=\frac{s}{\sqrt{n}}$
-> 표준오차와 표본크기 사이의 관계를 때로는 n 제곱근의 법칙(square-root of n rule)이라고 한다. 즉 표준오차를 2배로 줄이려면 표본 크기를 4배 증가시켜야 한다.
2. 5. 신뢰구간
용어 | 의미 |
신뢰수준(confidence level) | 같은 모집단으로부터 같은 방식으로 얻은, 관심 통계량을 포함할 것으로 에상되는, 신뢰구간의 백분율 |
구간끝점(interval endpoint) | 신뢰구간의 최상위, 최하위 끝점 |
< 부트스트랩 신뢰구간 구하는 법 >
-
데이터에서 복원추출 방식으로 크기 n인 표본을 뽑는다(재표본추출).
-
재표본추출한 표본에 대해 원하는 통계량을 기록한다.
-
1~2단계를 $R$번 반복한다.
-
$x%$ 신뢰구간을 구하기 위해, $R$개의 재표본 결과로부터 분포의 양쪽 끝에서 $[(100-x)/2]%$만큼 잘라낸다.
-
절단한 점들은 $x%$ 부트스트랩 신뢰구간의 양 끝점이다.
- 신뢰수준이 높을수록 구간이 더 넓어진다. 또한, 표본이 작을수록 구간이 넓어진다(즉, 불확실성이 더 커진다.)
2. 6. 정규분포
- 표본통계량 분포가 보통 어떤 일정한 모양이 있다는 사실은 이 분포를 근사화하는 수학 공식을 개발하는 데 강력한 도구가 되었다.
용어 | 의미 |
오차(error) | 데이터 포인트와 예측값 혹은 평균 사이의 차이 |
표준화(정규화)하다.(standardize) | 평균을 빼고 표준편차로 나눈다. |
z 점수(z-score) | 개별 데이터 포인트를 정규화한 결과 |
표준정규분포(standard normal distribution) | 평균=0, 표준편차=1인 정규분포 |
QQ 그림(QQ-plot) | 표본분포가 정규분포에 얼마나 가까운지를 보여주는 그림 |
※ 실제로 전형적인 데이터 과학 프로젝트에서 사용되는 대부분의 변수들, 실제 대부분의 원시 데이터는 전체적으로 정규분포를 따르지 않는다.
2. 6. 1. 표준정규분포와 QQ그림
- 정규분포를 표준정규분포로 변환하는 과정을 정규화(normalization) 또는 표준화(standardization)라고 한다. 이렇게 변환한 값을 z 점수라고 하며, 정규분포를 z 분포라고도 한다.
$Z=\frac{X-\mu}{\sigma}$
- QQ 그림은 표본이 정규분포에 얼마나 가까운지를 시각적으로 판별하는 데 사용된다. QQ 그림은 z 점수를 오름차순으로 정렬하고 각 값의 z 점수를 y축에 표시한다.
※ 통계학에서의 여러가지 분포(1)은 분포의 종류에 대해서 간단히 설명하며 추후 보완한 자료를 업로드 예정입니다. 따라서, 통계학의 관점의 깊은 수준까지는 다루지 않을 예정입니다.
<참고자료>
1. Peter Brucs & Andrew Brucs (2018), 데이터 과학을 위한 통계. 한빛미디어. 이용준 옮김.
'공부 > 데이터 과학을 위한 통계(한빛미디어)' 카테고리의 다른 글
9. 통계적 실험과 유의성 검정(1) (0) | 2020.10.12 |
---|---|
8. 통계학에서의 여러가지 분포(2) (0) | 2020.10.09 |
6. 데이터와 표본 (0) | 2020.10.06 |
5. 다변수 탐색 (0) | 2020.10.06 |
4. 상관관계 (0) | 2020.10.06 |