5. t 검정

- t 검정은 윌리엄 고셋이 단일 표본평균의 분포를 근사화하기 위해 개발한 것으로, 두 집단 간의 평균의 차이가 유의미한지 검정하기 위해 사용하는 보편적인 검정 방법이다.

- R에서는 t.test를 이용하여 검정을 실시할 수 있다.

용어 의미
검정통계량(test statistic) 관심의 차이 또는 효과에 대한 측정 지표
t 통계량(t-statistic) 표준화된 형태의 검정통계량
t 분포(t-distribution) 관측된 t 통계량을 비교할 수 있는, (귀무가설에서 파생된) 기준 분포

 

6. 다중검정

용어 의미
제1종 오류(type I error) 어떤 효과가 통계적으로 유의미하다고 잘못된 결론을 내린다
거짓 발견 비율(false discovery rate; FDR) 다중검정에서 1종 오류가 발생하는 비율
p 값 조정(adjustment of p-value) 동일한 데이터에 대해 다중검정을 수행하는 경우에 필요하다
과대적합(overfitting) 잡음까지 피팅

- 다중성(다중 비교, 많은 변수, 많은 모델 등)은 일부가 우연히 유의미하다는 결론을 내릴 위험을 증가시킨다.

- 지도 학습에서는 이를 해결하기 위해, 홀드아웃 세트를 사용해서 잘못된 결과를 피할 수 있다.

 

7. 자유도

용어 의미
표본크기 n 해당 데이터에서 관측값의 갯수
d.f.(degree of freedom) 자유도

- 자유도는 표본 데이터에서 계산된 통계량에 적용되며 변화가 가능한 값들의 갯수를 나타낸다.

 

간단히 말하면 10개의 데이터로 이루어진 표본에서 평균과 9개의 값을 알고 있다면, 마지막 10번째 데이터를 자연히 알 수 있다. 이 나머지 한 개의 값을 제외한 9개의 값만 변화가 가능하다.

 

- 데이터 과학 분야에서는 데이터의 크기가 대개 충분히 크기 때문에, 분모가 $n$인지 $n-1$인지 데이터 과학자에게는 거의 차이가 없다. 하지만, 회귀에서 요인 변수를 사용할 경우는 다중공선성을 피하기 위해 중요하게 여겨져야 한다.

 

8. 분산분석

용어 의미
쌍별 비교(pariwise comparison) 여러 그룹 중 두 그룹 간의 (예를 들면 평균에 대한) 가설검정
총괄검정(omnibus test) 여러 그룹 평균들의 전체 분산에 관한 단일 가설검정
분산분해(decomposition of variance) 구성 요소 분리. 예를 들면 전체 평균, 처리 평균, 잔차 오차로부터 개발값들에 대한 기여를 뜻한다.
F 통계량(F-statistic) 그룹 평균 간의 차이가 랜덤 모델에서 예상되는 것보다 벗어나는 정도를 측정하는 표준화된 통계량
SS(sum of squares) 어떤 평균으로부터의 편차들의 제곱합

- 여러 그룹 간의 통계적으로 유의미한 차이를 검정하는 통계적 절차를 분산분석(analysis of variance) 줄여서 ANOVA라고 한다.

 

1) F 통계량

- F 통계량은 잔차 오차(residual error)로 인한 분산과 그룹 평균의 분산에 대한 비율을 기초로 한다.

- R의 aov 함수를 통해 ANOVA 테이블을 손쉽게 계산할 수 있다.

  Df(자유도) Sum Sq(제곱합) Mean Sq(평균제곱합) F value(F 통계량) Pr(>F)(p 값)
Data          
Residuals          

2) 이원 분산분석

- A-B-C-D 요소(그룹)과 더불어 두 번째 요소를 고려한 분석을 진행할 때 필요한 것이 이원 ANOVA이다. 이것은 '상호작용 효과'를 확인하는 식으로, 일원 ANOVA와 방식은 유사하다.

 

9. 카이제곱검정

용어 의미
카이제곱통계량(chi-square statistic) 기댓값으로부터 어떤 관찰값까지의 거리를 나타내는 측정치
기댓값(expectation, expected) 어떤 가정(보통 귀무가설)으로부터 데이터가 발생할 때, 그에 기대하는 정도
d.f.(degrees of freedom) 자유도

- 카이제곱검정(chi-square test)은 횟수 관련 데이터에 주로 사용되며 예상되는 분포에 얼마나 잘 맞는지를 검정한다.

- 카이제곱통계량은 일반적으로 변수 각 독립성에 대한 귀무가설이 타당한지를 평가하기 위해 $r$x$c$ 분할표를 함께 사용한다.

- 카이제곱 통계량($\chi^2$)은 피어슨 잔차들의 제곱합니다. 피어슨 잔차($R$)는 실제 횟수와 기대한 횟수 사이의 차이를 나타낸다.

$R=\frac{관측값-기댓값}{\sqrt{기댓값}}$

 

$\chi^2=\sum_i^r\sum_j^cR^2$

- R에서는 chisq.test 함수를 통해서 이 값을 계산할 수 있다.

 

- 카이제곱분포는 재표본 검정의 좋은 근사치를 제공하지만, 사건 발생 횟수가 매우 낮을 때(한 자리 숫자이거나, 특히 5개 이하인 경우)는 예외이다.

- 이를 위해 발생할 수 있는 모든 조합(순열)을 실제로 열거하고, 빈도를 집계하고, 관찰된 결과가 얼마나 극단적으로 발생할 수 있는지를 정확하게 결정하는 절차를 제공하는데 이를 피셔의 정확검정이라고 한다.

 

10. 멀티암드 밴딧 알고리즘

- 멀티암드 밴딧(multi-armed bandit; MAB) 알고리즘은 실험 설계에 대한 전통적인 통계적 접근 방식보다 명시적인 최적화와 좀 더 빠른 의사결정을 가능하게 하며, 여러 테스트, 특히 웹 테스트를 위해 이를 사용한다.

 

용어 의미
멀티암드 밴딧(mulit-armed bandit) 고객이 선택할 수 있는 손잡이가 여러 개인 가상의 슬롯머신을 말하며, 각 손잡이는 각기 다른 수익을 가져댜준다. 다중 처리 실험에 대한 비유라고 생각할 수 있다.
손잡이(arm) 실험에서 어떤 하나의 처리를 말한다.
상금(수익)(win) 슬롯머신으로 딴 상금에 대한 실험적 비유

- 엡실론-그리디 알고리즘(epsilon-greedy algorithm) : A/B 검정을 위한 간단한 알고리즘

1) 0부터 1 사이의 난수를 생성한다.

2) 이 숫자가 0과 엡실론(0과 1 사이의 값으로 일반적으로 아주 작다) 사이에 존재하면, 50/50의 확률로 동전 뒤집기를 실행한다.

2-a) 그 결과 동전이 앞면이면 제안 A를 표시한다.

2-b) 동전이 뒷면이면 제안 B를 표시한다.

3) 숫자가 엡실론보다 크면, 지금까지 가장 좋은 결과를 보인 제안을 표시한다.

 

- 엡실론이 1이라면 간단한 표준 A/B검정을 하게 되는 셈이다.

- 엡실론이 0이라면 완전한 탐욕 알고리즘(greedy algorithm)이 되어버린다.

-> 더 이상의 실험 없이, 피실험자들을 항상 지금까지 알려진 가장 좋은 제안에 할당한다.

 

* 밴딧 알고리즘은 3가지 이상의 처리를 효율적으로 다루고 '최고'를 위한 최적의 선택을 하도록 돕는다. 전통적인 통계 검정의 경우, 3가지 이상의 처리를 위한 의사 결정은 전통적인 A/B 검정의 의사 결정보다 훨씬 복잡하며, 이 경우 밴딧 알고리즘의 장점이 훨씬 커진다.

 

11. 검정력과 표본크기

용어 의미
효과크기(effect size) '클릭률의 20% 향상'과 같이 통계 검정을 통해 판단할 수 있는 효과의 최소 크기
검정력(power) 주어진 표본크기로 주어진 효과크기를 알아낼 확률
유의수준(significance level) 검증 시 사용할 통계 유의수준

- 검정력 계산의 주된 용도는 표본크기가 어느 정도 필요한가를 추정하는 것이다.

- 검정력 혹은 필요한 표본크기의 계산과 관련된 4가지의 중요한 요소들이 있다.

  • 표본크기
  • 탐지하고자 하는 효과크기
  • 가설검정을 위한 유의수준
  • 검정력

- 가장 일반적으로 표본크기를 알고 싶을 경우가 많다. 이때, 나머지 3가지 요소를 정해야 한다. 아래의 R 코드는 같은 크기의 두 표본을 고려한 검정을 위해 사용된다.

pwr.2p.test(h=... , n=..., sig.level=..., power=...)

 h=효과크기(비율), n=표본크기, sig.level=검정을 수행할 유의수준(알파),power=검정력(효과크기를 알아낼 확률)이다.

 


< 참고자료 >
1. Peter Brucs & Andrew Brucs (2018), 데이터 과학을 위한 통계. 한빛미디어. 이용준 옮김.

1. 3. 위치 추정

- 데이터를 살펴보는 가장 기초적인 단계는 각 Feature(변수)의 '대푯값(typical value')을 구하는 것이다. 이는 곧 대부분의 값이 어디쯤에 위치하는지(중심 경향성)를 나타내는 추정 값이다.

 

용어 의미
평균(Mean) 모든 값의 총합을 갯수로 나눈 값
가중 평균(Weighted Mean) 가중치를 곱한 값의 총합을 가중치의 총합으로 나눈 값
중간값(Median) 데이터에서 가장 가운데 위치한 값
가중 중간값(Weigthed Median) 데이터를 정렬한 후, 각 가중치 값을 위에서부터 더할 때, 총합의 중간이 위치하는 데이터 값
절사 평균(Trimmed Mean) 정해진 갯수의 극단값을 제외한 나머지 값들의 평균
로버스트하다(Robust) 극단값들에 민감하지 않다는 것을 의미한다.
특잇값(Outlier) 대부분의 값과 매우 다른 데이터 값(=이상치)

평균

- 가장 기본적인 위치 추정 방법으로 모든 값의 총합을 값의 개수로 나눈 값이다. 따라서 특잇값(이상치)의 영향을 많이 받는다.

평균$ =\overline{x}=\frac{\sum_i^nx_{i}}{n}$

절사 평균

- 값들을 크기 순으로 정렬한 후, 양끝에서 일정 개수의 값들을 삭제한 뒤 남은 값들을 가지고 구한 평균을 말한다. 따라서 극단값을 제거함으로써 특잇값(이상치)의 영향 줄이기 위해서 많이 사용된다.

절사 평균$ =\overline{x}=\frac{\sum_{i=p+1}^{n-p}x_{(i)}}{n-2p}$

여기서 p는 가장 크고 작은 값들의 쌍을 의미한다. 즉, p=1인 경우 가장 작은 값 $x_{(1)}$과 가장 큰 값 $x_{(n)}$을 제거했다는 것을 의미한다.

가중 평균 

- 각 데이터 값 $x_{i}$에 가중치 $w_{i}$를 곱한 값들의 총합을 다시 가중치의 총합으로 나누는 방법이다.

가중평균$ =\overline{x_w}=\frac{\sum_{i=1}^{n}w_{i}x_{i}}{\sum_{i}^{n}w_{i}}$

  • 어떤 값들이 본래 다른 값들에 비해 큰 변화량을 가질 때, 이러한 관측값에 대해 더 작은 가중치를 줄 수 있다.
  • 데이터를 수집할 때, 서로 다른 대조군에 대해서 항상 똑같은 수가 얻어지지 않는다. 이를 보정하기 위해서, 데이터가 부족한 소수 그룹에 대해 더 높은 가중치를 적용한다.

중간값

- 데이터를 일렬로 정렬했을 때, 한가운데 위치하는 값. 데이터의 개수가 짝수라면 가운데에 있는 두 값의 평균으로 한다. 따라서 특잇값(극단값)들의 영향을 받지 않으므로 로버스트한 위치 추정 방법이라고 알려져 있다.

특잇값

- 어떤 데이터 집합에서 다른 값들과 매우 멀리 떨어져 있는 값들을 말한다.

 

 

가장 기본적인 위치 추정 방법은 평균이다. 하지만 극단값(이상치)에 영향을 많이 받는 방법이다.

따라서 상황에 맞춰 좀 더 로버스트한 방법인 중간값과 절사평균을 활용한다.


1. 4. 변이 추정

- 변이(variability)는 데이터 값이 얼마나 밀집해 있는지 혹은 퍼져있는지를 나타내는 산포도(dispersion)를 나타낸다. 변이를 측정하고, 이를 줄이고, 실제 변이와 랜덤을 구분하고, 실제 변이의 다양한 요인들을 알아보고, 변이가 있는 상황에서 결정을 내리는 등, 통계의 핵심에 이 변이가 있다.

용어 의미
편차(deviation) 관측값과 위치 추정값사이의 차이(=오차, 잔차)
분산(variance) 평균과의 편차를 제곱한 값들의 합을$n-1$로 나눈 값. $n$은 데이터의 갯수
표준편차(standard deviation) 분산의 제곱근
평균절대편차
(mean absolute deviation)
평균과의 편차의 절댓값의 평균
중간값의 중위절대편차
(median absolute deviation from the median)
중간값과의 편차의 절댓값의 중간값
범위(range) 데이터의 최댓값과 최솟값의 차이
순서통계량(order statistics) 최소에서 최대까지 정렬된 데이터 값에 따른 계량형
백분위수(percentile) 어떤 값들의 $P$퍼센트가 이 값 혹은 더 작은 값을 갖고 $(100-P)$퍼센트가 이 값 혹은 더 큰 값을 갖도록 하는 값
사분위범위(interquartile range) 75번째 백분위수(=3분위)와 25번째 백분위수(=1분위) 사이의 차이(=IQR)

 

1. 4. 1. 표준편차와 관련된 추정값들

편차

- 관측값과 위치 추정값 사이의 차이. 데이터가 중앙값을 주변으로 얼마나 퍼져 있는지 말해준다. 변이를 측정하는 한 가지 방법은 바로 편차들의 대푯값을 추정하는 것이다. 하지만 평균을 기준으로 하는 편차들의 합은 항상 0이기 때문에 편차의 평균을 구하는 것은 바람직하지 않다. 이를 보안하기 위해서 편차의 절댓값의 평균을 구하는 것이다. 이것을 평균절대편차라고 한다.

평균절대편차$ =\frac{\sum_{i=1}^{n}|x_i-\bar{x}|}{n}$

분산과 표준편차

분산은 제곱 편차의 평균이고, 표준편차는 분산의 제곱근이다. 그렇기 때문에 표준편차는 원래 데이터와 같은 척도(scale)에 있기 때문에 분산보다 훨씬 해석하기가 쉽다.

분산$ =s^2=\frac{\sum_{}^{}(x-\bar{x})^2}{n-1}$

표준편차=$s$

자유도

자유도(degrees of freedom)는 변화할 자유가 있는 논리적으로 독립적인 값들의 최댓값을 의미한다. 간단한 예시를 통해서 자유도 개념의 이해를 돕는다.

  • 양의 정수 5개로 구성된 데이터 표본이 존재한다.

  • 표본에 포함된 숫자 중 4개의 데이터는 {3, 8, 5, 4}이며 전체 데이터 표본의 평균은 6이다.

  • 따라서 다섯 번째 숫자는 10이라는 것을 알 수 있으며, 10 이외의 다를 숫자는 아니다.

  • 그렇기 때문에 이 데이터 표본의 자유도는 4이다.

- 만약 분산 수식에 $n$을 분모로 사용한다면, 모집단의 분산과 표준편차의 참값을 과소평가하게 된다. 이를 편향(biased) 추정이라고 부른다. 하지만 만약 $n$ 대신 $n-1$로 나눈다면, 분산은 비편향(unbiased) 추정이 된다.

 

분산, 표준편차, 평균절대편차 모두 특잇값과 극단값에 로버스트하지 않다. 분산과 표준편차는 제곱 편차를 사용하기 때문에, 특히 특잇값에 민감하다. 로버스트한 변위 추정값으로는 중간값으로부터의 중위절대편차(MAD)가 있다. 중간값의 특징을 따라 MAD는 극단값의 영향을 받지 않는다. 절사 평균과 유사하게 절사 표준편차를 계산하는 것 역시 가능하다.

 

중위표준편차=중간값$(|x_1-m|,|x_2-m|,\cdot\cdot\cdot,|x_n-m|)$

 

<참고자료>
1. Peter Brucs & Andrew Brucs (2018), 데이터 과학을 위한 통계. 한빛미디어. 이용준 옮김.
2. Akhilesh Ganti, "Degrees of Freedom", Investopedia, 2019(www.investopedia.com/terms/d/degrees-of-freedom.asp)

+ Recent posts