- 추론(inference) : 제한된 데이터로 주어진 실험 결과를 더 큰 과정 또는 모집단에 적용하려는 의도를 반영한다.

1. A/B 검정

- 두 처리 방법, 제품, 혹은 절차 중 어느 쪽이 다른 쪽보다 더 우월하다는 것을 입증하기 위해 실험군을 두 그룹으로 나누어 진행하는 실험이다.

용어 의미
처리(treatment) 어떤 대상에 주어지는 특별한 환경이나 조건
처리군(treatment group) 특정 처리에 노출된 대상들의 집단
대조군(control group) 어떤 처리도 하지 않은 대상들의 집단
랜덤화(randomization0 처리를 적용할 대상을 임의로 결정하는 과정
대상(subject) 처리를 적용할 개체 대상
검정통계량(test statistic) 처리 효과를 측정하기 위한 지표

- 대조군의 경우, 관심 처리를 뺀 나머지는 처리 그룹과 동일한 조건이 적용되기 때문에 대조군은 설정은 필수적이다.

2. 가설검정

- 가설검정(hypothesis test)은 유의성 검정(significance test)라고도 불리며, 그 목적은 관찰된 효과가 우연에 의한 것인지 여부를 알아내는 것이다.

용어 의미
귀무가설(null hypothesis) 우연 때문이라는 가설
대립가설(alternative hypothesis) 귀무가설과의 대조(증명하고자 하는 가설)
일원검정(one-way test) 한 방향으로만 우연히 일어날 확률을 계산하는 가설검정
이원검정(two-way test) 양방향으로 우연히 일어날 확률을 계산하는 가설검정

1) 귀무가설

- 그룹 간의 차이는 우연에 의한 결과라는 것을 기본 가정으로 설정하고 이를 귀무가설이라고 부른다. 결국, 귀무가설이 틀렸다는 것을 입증해서, A 그룹과 B 그룹 간의 차이가 우연이 아니라는 것을 보여주는 것이 목적이다.

 

2) 대립가설

- 귀무가설과 대립 가설이 모든 가능성을 설명할 수 있어야 한다.

 

귀무가설 : 그룹 A와 그룹 B의 평균에는 차이가 없다.

대립가설 : 그룹 A와 그룹 B의 평균은 다르다(더 크거나 작을 수 있다).

-> 모든 가능성을 설명할 수 있기 때문에 올바른 가설 검정이다.

 

귀무가설 : A < B

대립가설 : A > B

-> A=B라는 가능성을 설명할 수 없기 때문에 올바르지 않은 가설설정이다.

 

3) 일원 가설검정

- 우연에 의한 극단적인 결과에 대해 한 방향만을 고려하여 p 값을 계산한다.

 

4) 이원 가설검정

- 우연에 의한 극단적인 결과가 양쪽에서 나타날 p 값을 계산한다.

3. 재표본추출

- 재표본추출이란 랜덤한 변동성을 알아보자는 일반적인 목표를 가지고, 관찰된 데이터의 값에서 표본을 반복적으로 추출하는 것을 의미한다. 부트스트랩과 순열검정이라는 두 가지 주요 유형이 있다.

- 부트스트랩은 추정의 신뢰성을 평가하는 데 사용되며, 순열검정은 일반적으로 두 개 이상의 그룹과 관련된 가설을 검증하는 데 사용한다.

용어 의미
순열검정(permutation test) 두 개 이상의 표본을 함께 결합하여 관측값들을 무작위로(또는 전부를) 재표본으로 추출하는 과정을 말한다.
복원/비복원(with or without replacement) 표본을 추출할 때, 이미 한번 뽑은 데이터를 다음번 추출을 위해 다시 제자리에 돌려 놓거나/다음 추출에서 제외하는 표집 방법

1) 순열검정

- 순서를 바꾼다(permute)라는 의미의 영어 표현은 말 그대로 어떤 값들의 집합에서 값들의 순서를 변경한다는 의미가 있다.

perm_fun <- function(x, n1, n2)
{
	n <- n1 + n2 # 여러 그룹의 데이터를 하나의 그룹으로 합친다.
	idx_b <- sample(1:n, n1) # 기존의 그룹과 동일한 크기로 표본을 비복원 추출한다.
    idx_a <- setdiff(1:n, idx_b) # 기존의 그룹과 동일한 크기로 표본을 비복원 추출한다.
    mean_diff <- mean(x[idx_b]) - mean(x[idx_a])
    return(mean_diff)
}

위의 랜덤 셔플링 절차를 임의순열검정(random permutation test) 또는 임의화검정(randomization test)이라고 부르며 이 외에도 전체순열검정(exhaustive permutation test)와 부트스트랩 순열검정(bootstrap permutation test)가 있다.

 

전체순열검정

- 데이터를 무작위로 섞고 나누는 대신 실제로 나눌 수 있는 모든 가능한 조합을 찾는다. 그렇기 때문에 샘플이 작을 경우에만 실용적이다.( 셔플링을 반복할수록, 임의순열검정의 결과는 전체순열검정의 결과와 거의 유사하게 근접한다.)

 

부트스트랩 순열검정

- 샘플링 과정을 복원 추출로 수행한다. 이러한 경우 모집단에서 개체를 선택할 때 임의성을 보장하며, 개체가 처리 그룹에 할당될 때에도 임의성을 보장한다.

 

* 순열검정은 랜덤한 변이가 어떤 역할을 하는지 알아보기 위해 사용되는 휴리스틱한 절차이다.

* 리샘플링의 장점 중 하나는 추론에서 '모두에게 맞는' 접근 방식이라고 말할 수 있다는 점이다.

4. 통계적 유의성과 p 값

- 통계적 유의성이란, 실험이나 연구 결과가 우연히 일어난 것인지 아니면 우연히 일어날 수 없는 극단적인 것인지를 판단하는 방법이다.

용어 의미
p 값(p-value) 귀무가설을 구체화한 기회 모델이 주어졌을 때, 관측된 결과와 같이 특이하거나 극단적인 결과를 얻을 확률
알파(alpha) 실제 결과가 통계적으로 의미 있는 것으로 간주되기 위해, 우연에 의한 기회 결과가 능가해야 하는 '비정상적인' 가능성의 임계 확률
제1종 오류(type I error) 우연에 의한 효과가 실제 효과라고 잘못 결론 내리는 것
제2종 오류Itype II error) 실제 효과를 우연에 의한 효과라고 잘못 결론 내리는 것

1) p 값

- 우리가 p 값을 통해 전달하고자 하는 것 : 결과가 우연에서 비롯될 확률.

- 실제 p 값이 나타내는 것 : 랜덤 모델이 주어졌을 때, 그 결과가 관찰된 결과보다 더 극단적일 확률.

 

2) 오류

- 1종 오류 : 어떤 효과가 우연히 발생한 것인데, 그것이 사실이라고 잘못 판단하는 경우

- 2종 오류 : 어떤 효과가 실제로 있는 것인데, 그것이 우연히 발생한 것이라고 잘못 판단하는 경우

 

* 유의성 검정의 기본 기능은 어쩌다 우연히 일어난 일에 속지 않도록 하는 것이다. 따라서 보통은 1종 오류를 최소화하도록 가설을 설계한다.


< 참고자료 >
1. Peter Brucs & Andrew Brucs (2018), 데이터 과학을 위한 통계. 한빛미디어. 이용준 옮김.

미지의 분포를 따를 것으로 추정되는 모집단에서 표본 데이터와 그 경험을 통해 얻은 분포를 얻어내는 것이 표본추출이다. 빅데이터 시대가 되면서 데이터의 질과 적합성을 일정 수준 이상으로 담보할 수도 없으면서 데이터 크기만 늘어나는 것이 오늘날 상황이다. 이런 상황에서, 오히려 다양한 데이터를 효과적으로 다루고 데이터 편향을 최소화하기 위한 방법으로 표본추출의 필요성이 더 커지고 있다.

 

  • 전통적인 통계학 : 강력에 가정에 기초한 이론을 통해 모집단을 밝혀내는 데 초점을 맞춘다.

  • 현대 통계학 : 가정이 더 이상 필요하지 않은 표본에 대한 연구에 초점을 맞춘다.

2. 1. 랜덤표본추출과 표본 편향

용어 의미
표본(sample) 더 큰 데이터 집합으로부터 얻은 부분집합
모집단(population) 어떤 데이터 집합을 구성하는 전체 대상 혹은 전체 집합
N(n) 모집단(표본)의 크기
랜덤표본추출(random sampling) 무작위로 표본을 추출하는 것
층화표본추출(stratified sampling) 모집단을 층으로 나눈 뒤, 각 층에서 무작위로 표본을 추출하는 것
단숨랜덤표본(simple random sample) 모집단 층화 없이 랜덤표본추출로 얻은 표본
표본편향(sample bias) 모집단을 잘못 대표하는 표본
  • 복원추출(with replacement) : 추출 후, 다음번에도 중복 추출이 가능하도록 해당 샘플을 다시 모집단에 포함시킨다.

  • 비복원추출(without replacement) : 추출 후, 한번 뽑힌 원소는 추후 추출에 사용하지 않는다.

- 원래 대표되도록 의도된 모집단으로부터 추출되지 않고 유의미한 비임의 방식으로 표본이 추출되면서 표본 편향이 발생했다. 여기서 비임의(nonrandom)는 아무리 랜덤표본이라고 해도, 어떤 표본도 모집단을 정확하게 대표할 수 없다는 것을 의미한다.

층화표본추출

- 모집단을 여러 층으로 나누고 각 층에서 무작위로 샘플을 추출한다. 이러한 과정에서 각 층에 데이터 불균형이 발생할 수 있다. 이런 경우 가중치를 주는 표본추출을 통해, 계층마다 동일한 표본크기를 얻을 수 있다.

2. 2. 선택 편향

- 데이터를 의식적이든 무의식적이든 선택적으로 고르는 관행을 의미한다.

용어 의미
편향(bias) 계통적 오차
데이터 스누핑(data snooping) 뭔가 흥미로운 것을 찾아 광범위하게 데이터를 살피는 것
방대한 검색 효과
(vast search effect)
중복 데이터 모델링이나 너무 많은 예측변수를 고려하는 모델링에서 비롯되는 편향 혹은 비재현성

- 가설을 구체적으로 명시하고 랜덤표본추출 원칙에 따라 데이터를 수집하면 편향을 피할 수 있다.

- 큰 데이터 집합을 가지고 반복적으로 다른 모델을 만들고 다른 질문을 하다 보면, 언젠가 흥미로운 것을 발견하기 마련이다. 성능을 검증하기 위해 하나 이상의 홀드아웃(holdout) 세트를 이용하면 이를 방지할 수 있다. 또한 엘더는 데이터 마이닝 모델에서 제시하는 예측들을 검증하기 위해, 목푯값 섞기(본질적으로는 순열 검정)라는 것을 추천했다.

평균으로의 회귀(regression to the mean)

- 주어진 어떤 변수를 연속적으로 측정했을 때 나타나는 현상이다. 예외적인 경우가 관찰되면 그다음에는 중간 정도의 경우가 관찰되는 경향이 있다. 따라서 예외 경우를 너무 특별히 생각하고 의미를 부여하는 것은 선택 편향으로 이어질 수 있다.

2. 4. 부트스트랩

- 통계량이나 모델 파라미터(모수)의 표본 분포를 추정하는 쉽고 효과적인 방법은, 현재 있는 표본에서 추가적으로 표본을 복원추출하고 각 표본에 대한 통계량과 모델을 다시 계산하는 것이다. 이러한 절차를 부트스트랩(bootstrap)이라 하며, 데이터나 표본 통계량이 정규분포를 따라야 한다는 꼭 필요하지 않다.

용어 의미
부트스트랩 표본(bootstrap sample) 관측 데이터 집합으로부터 얻은 복원추출 표본
재표본추출(resampling) 관측 데이터로부터 반복해서 표본추출하는 과정. 부트스트랩과 순열(셔플링) 과정을 포함한다.

- 부트스트랩을 통해서 뽑을 때마다 각 원소가 뽑힐 확률은 그대로 유지하면서 무한한 크기의 모집단을 만들어낼 수 있다. 부트스트랩 반복 횟수가 많을수록 표준오차나 신뢰구간에 대한 추정이 더 정확해진다.

 

※ 부트스트랩은 표본크기가 작은 것을 보완하기 위한 것이 아니다. 모집단에서 추가적으로 표본을 뽑는다고 할 때, 그 표본이 얼마나 원래 표본과 비슷할지를 알려줄 뿐이다. -> 추가적인 학습이 필요하다.

2. 4. 1. 재표본추출 대 부트스트래핑

- 재표본추출은 부트스트랩과 더불어 여러 표본이 결합되어 비복원추출을 수행할 수 있는 순열 과정을 포함한다.

 

※ 부트스트랩에 대한 추가적인 게시글을 통해서 깊이 있는 학습이 필요하다.

<참고자료>
1. Peter Brucs & Andrew Brucs (2018), 데이터 과학을 위한 통계. 한빛미디어. 이용준 옮김.

+ Recent posts