5. t 검정

- t 검정은 윌리엄 고셋이 단일 표본평균의 분포를 근사화하기 위해 개발한 것으로, 두 집단 간의 평균의 차이가 유의미한지 검정하기 위해 사용하는 보편적인 검정 방법이다.

- R에서는 t.test를 이용하여 검정을 실시할 수 있다.

용어 의미
검정통계량(test statistic) 관심의 차이 또는 효과에 대한 측정 지표
t 통계량(t-statistic) 표준화된 형태의 검정통계량
t 분포(t-distribution) 관측된 t 통계량을 비교할 수 있는, (귀무가설에서 파생된) 기준 분포

 

6. 다중검정

용어 의미
제1종 오류(type I error) 어떤 효과가 통계적으로 유의미하다고 잘못된 결론을 내린다
거짓 발견 비율(false discovery rate; FDR) 다중검정에서 1종 오류가 발생하는 비율
p 값 조정(adjustment of p-value) 동일한 데이터에 대해 다중검정을 수행하는 경우에 필요하다
과대적합(overfitting) 잡음까지 피팅

- 다중성(다중 비교, 많은 변수, 많은 모델 등)은 일부가 우연히 유의미하다는 결론을 내릴 위험을 증가시킨다.

- 지도 학습에서는 이를 해결하기 위해, 홀드아웃 세트를 사용해서 잘못된 결과를 피할 수 있다.

 

7. 자유도

용어 의미
표본크기 n 해당 데이터에서 관측값의 갯수
d.f.(degree of freedom) 자유도

- 자유도는 표본 데이터에서 계산된 통계량에 적용되며 변화가 가능한 값들의 갯수를 나타낸다.

 

간단히 말하면 10개의 데이터로 이루어진 표본에서 평균과 9개의 값을 알고 있다면, 마지막 10번째 데이터를 자연히 알 수 있다. 이 나머지 한 개의 값을 제외한 9개의 값만 변화가 가능하다.

 

- 데이터 과학 분야에서는 데이터의 크기가 대개 충분히 크기 때문에, 분모가 $n$인지 $n-1$인지 데이터 과학자에게는 거의 차이가 없다. 하지만, 회귀에서 요인 변수를 사용할 경우는 다중공선성을 피하기 위해 중요하게 여겨져야 한다.

 

8. 분산분석

용어 의미
쌍별 비교(pariwise comparison) 여러 그룹 중 두 그룹 간의 (예를 들면 평균에 대한) 가설검정
총괄검정(omnibus test) 여러 그룹 평균들의 전체 분산에 관한 단일 가설검정
분산분해(decomposition of variance) 구성 요소 분리. 예를 들면 전체 평균, 처리 평균, 잔차 오차로부터 개발값들에 대한 기여를 뜻한다.
F 통계량(F-statistic) 그룹 평균 간의 차이가 랜덤 모델에서 예상되는 것보다 벗어나는 정도를 측정하는 표준화된 통계량
SS(sum of squares) 어떤 평균으로부터의 편차들의 제곱합

- 여러 그룹 간의 통계적으로 유의미한 차이를 검정하는 통계적 절차를 분산분석(analysis of variance) 줄여서 ANOVA라고 한다.

 

1) F 통계량

- F 통계량은 잔차 오차(residual error)로 인한 분산과 그룹 평균의 분산에 대한 비율을 기초로 한다.

- R의 aov 함수를 통해 ANOVA 테이블을 손쉽게 계산할 수 있다.

  Df(자유도) Sum Sq(제곱합) Mean Sq(평균제곱합) F value(F 통계량) Pr(>F)(p 값)
Data          
Residuals          

2) 이원 분산분석

- A-B-C-D 요소(그룹)과 더불어 두 번째 요소를 고려한 분석을 진행할 때 필요한 것이 이원 ANOVA이다. 이것은 '상호작용 효과'를 확인하는 식으로, 일원 ANOVA와 방식은 유사하다.

 

9. 카이제곱검정

용어 의미
카이제곱통계량(chi-square statistic) 기댓값으로부터 어떤 관찰값까지의 거리를 나타내는 측정치
기댓값(expectation, expected) 어떤 가정(보통 귀무가설)으로부터 데이터가 발생할 때, 그에 기대하는 정도
d.f.(degrees of freedom) 자유도

- 카이제곱검정(chi-square test)은 횟수 관련 데이터에 주로 사용되며 예상되는 분포에 얼마나 잘 맞는지를 검정한다.

- 카이제곱통계량은 일반적으로 변수 각 독립성에 대한 귀무가설이 타당한지를 평가하기 위해 $r$x$c$ 분할표를 함께 사용한다.

- 카이제곱 통계량($\chi^2$)은 피어슨 잔차들의 제곱합니다. 피어슨 잔차($R$)는 실제 횟수와 기대한 횟수 사이의 차이를 나타낸다.

$R=\frac{관측값-기댓값}{\sqrt{기댓값}}$

 

$\chi^2=\sum_i^r\sum_j^cR^2$

- R에서는 chisq.test 함수를 통해서 이 값을 계산할 수 있다.

 

- 카이제곱분포는 재표본 검정의 좋은 근사치를 제공하지만, 사건 발생 횟수가 매우 낮을 때(한 자리 숫자이거나, 특히 5개 이하인 경우)는 예외이다.

- 이를 위해 발생할 수 있는 모든 조합(순열)을 실제로 열거하고, 빈도를 집계하고, 관찰된 결과가 얼마나 극단적으로 발생할 수 있는지를 정확하게 결정하는 절차를 제공하는데 이를 피셔의 정확검정이라고 한다.

 

10. 멀티암드 밴딧 알고리즘

- 멀티암드 밴딧(multi-armed bandit; MAB) 알고리즘은 실험 설계에 대한 전통적인 통계적 접근 방식보다 명시적인 최적화와 좀 더 빠른 의사결정을 가능하게 하며, 여러 테스트, 특히 웹 테스트를 위해 이를 사용한다.

 

용어 의미
멀티암드 밴딧(mulit-armed bandit) 고객이 선택할 수 있는 손잡이가 여러 개인 가상의 슬롯머신을 말하며, 각 손잡이는 각기 다른 수익을 가져댜준다. 다중 처리 실험에 대한 비유라고 생각할 수 있다.
손잡이(arm) 실험에서 어떤 하나의 처리를 말한다.
상금(수익)(win) 슬롯머신으로 딴 상금에 대한 실험적 비유

- 엡실론-그리디 알고리즘(epsilon-greedy algorithm) : A/B 검정을 위한 간단한 알고리즘

1) 0부터 1 사이의 난수를 생성한다.

2) 이 숫자가 0과 엡실론(0과 1 사이의 값으로 일반적으로 아주 작다) 사이에 존재하면, 50/50의 확률로 동전 뒤집기를 실행한다.

2-a) 그 결과 동전이 앞면이면 제안 A를 표시한다.

2-b) 동전이 뒷면이면 제안 B를 표시한다.

3) 숫자가 엡실론보다 크면, 지금까지 가장 좋은 결과를 보인 제안을 표시한다.

 

- 엡실론이 1이라면 간단한 표준 A/B검정을 하게 되는 셈이다.

- 엡실론이 0이라면 완전한 탐욕 알고리즘(greedy algorithm)이 되어버린다.

-> 더 이상의 실험 없이, 피실험자들을 항상 지금까지 알려진 가장 좋은 제안에 할당한다.

 

* 밴딧 알고리즘은 3가지 이상의 처리를 효율적으로 다루고 '최고'를 위한 최적의 선택을 하도록 돕는다. 전통적인 통계 검정의 경우, 3가지 이상의 처리를 위한 의사 결정은 전통적인 A/B 검정의 의사 결정보다 훨씬 복잡하며, 이 경우 밴딧 알고리즘의 장점이 훨씬 커진다.

 

11. 검정력과 표본크기

용어 의미
효과크기(effect size) '클릭률의 20% 향상'과 같이 통계 검정을 통해 판단할 수 있는 효과의 최소 크기
검정력(power) 주어진 표본크기로 주어진 효과크기를 알아낼 확률
유의수준(significance level) 검증 시 사용할 통계 유의수준

- 검정력 계산의 주된 용도는 표본크기가 어느 정도 필요한가를 추정하는 것이다.

- 검정력 혹은 필요한 표본크기의 계산과 관련된 4가지의 중요한 요소들이 있다.

  • 표본크기
  • 탐지하고자 하는 효과크기
  • 가설검정을 위한 유의수준
  • 검정력

- 가장 일반적으로 표본크기를 알고 싶을 경우가 많다. 이때, 나머지 3가지 요소를 정해야 한다. 아래의 R 코드는 같은 크기의 두 표본을 고려한 검정을 위해 사용된다.

pwr.2p.test(h=... , n=..., sig.level=..., power=...)

 h=효과크기(비율), n=표본크기, sig.level=검정을 수행할 유의수준(알파),power=검정력(효과크기를 알아낼 확률)이다.

 


< 참고자료 >
1. Peter Brucs & Andrew Brucs (2018), 데이터 과학을 위한 통계. 한빛미디어. 이용준 옮김.

+ Recent posts