※ 통계학에서의 여러가지 분포(2)은 분포의 종류에 대해서 간단히 설명하며 추후 보완한 자료를 업로드 예정입니다. 따라서, 통계학의 관점의 깊은 수준까지는 다루지 않을 예정입니다.

2. 7. 긴 꼬리 분포 - 보충설명 필요

- 역사적으로 통계에서의 정규분포의 중요성에도 불구하고, 그리고 그 이름에 담긴 '정상적'이라는 의미와는 달리, 데이터는 일반적으로 정규분포를 따르지 않는다.

용어 의미
꼬리(tail) 적은 수의 극단값이 주로 존재하는, 도수분포의 길고 좁은 부분
왜도(skewmess) 분포의 한쪽 꼬리가 반대쪽 다른 꼬리보다 긴 정도

2. 8. 스튜던트의 t 분포

- t 분포(t-distribution)는 정규분포와 생김새가 비슷하지만, 꼬리 부분이 약간 더 두껍고 길다.

그림 1. t 분포의 활률 밀도 함수

- t 분포의 정확도는 표본에 대한 통계량의 분포가 정규분포를 따른다는 조건을 필요로 한다. 원래 모집단이 정규분포를 따르지 않을 때조차도, 표본 통계량은 보통 정규분포를 따르는 것으로 나타났다(t 분포가 널리 적용되는 이유). 이러한 현상을 중심극한정리라고 부른다.

2. 9. 이항분포

용어 의미
시행(trial) 독립된 결과를 가져오는 하나의 사건
성공(success) 시행에 대한 관심의 결과
이항식(binomial) 두 가지 결과를 갖는다.
이항시행(binomial trial) 두 가지 결과를 가져오는 시행
이항분포(binomial distribution) $x$번 시행에서 성공한 횟수에 대한 분포

R에서 dbionom과 pbinom 함수를 사용한다.

dbinom(x=2, n=5, p=0.1)

  • dbinom(x=2, n=5, p=0.1) : n=5인 시행에서 각 시행의 성공 확률이 p=0.1일 떼 정확히 x=2인 성공이 나올 확률을 의미한다.

  • pbinom(x=2, n=5, p=0.1) : n=5인 시행에서 각 시행의 성공 확률이 p=0.1일 떼 정확히 x=2 또는 그 이하로 성공할 확률을 의미한다.

※ 시행 횟수가 충분할 경우(특히 $p$가 0.50에 가까울 때) 이항분포는 사실상 정규분포와 구별이 어렵다.

2. 10. 푸아송 분포와 그 외 관련 분포들

용어 의미
람다(lambda) 단위 시간이나 단위 면적당 사건이 발생하는 비율
푸아송 분포(Poisson distribution) 표집된 단위 시간 혹은 단위 공간에서 발생한 사건의 도수분포
지수 분포(exponential distribution) 한 사건에서 그다음 사건까지의 시간이나 거리에 대한 도수분포
베이불 분포(Weibull distribution) 사건 발생률이 시간에 따라 변화하는, 지수분포의 일반화된 버전

2. 10. 1. 푸아송 분포

- 시간 단위 또는 공간 단위로 표본들을 수집할 때, 그 사건들의 분포를 알려준다.

- $\lambda$ : 푸아송 분포의 핵심 파라미터로 어떤 일정 시간/공간 구간 안에서 발생한 평균 사건 수를 의미한다. 분산 역시 $\lambda$이다.

- rpois(100, lambda=2) : $\lambda=2$인 푸아송 분포에서 100개의 난수를 생성한다.

2. 10. 2. 지수분포

- 푸아송 분포에 사용된 것과 동일한 변수 $\lambda$를 사용하여 사건과 사건 간의 시간 분포를 모델링할 수 있다.

- rexp(n = 100, rate = .2) : 주기별 평균 사건 수가 0.2인 지수분포에서 100개의 난수를 생성한다.

 

※ 푸아송이나 지수분포에 대한 핵심은 $\lambda$가 해당 기간 동안 일정하게 유지된다는 가정이다. 대체적으로 만족하지 않는 경우가 많지만, 시간 주기 또는 공간을, 일정 기간 충분히 동일하도록 영역을 잘 나눈다면, 해당 기간 내의 분석 및 시뮬레이션이 가능하다.

2. 10. 4. 베이불 분포

- 베이불 분포는 지수분포를 확장한 것으로, 형상(shape) 파라미터 $\beta$로 지정된 대로 발생률이 달라질 수 있다. $\beta>1$일 경우, 발생률은 시간이 지남에 따라 증가하며, $\beta<1$ 이면 감소한다. 베이불 분포는 사건 발생률 대신 고장 시간 분석에 사용되기 때문에 두번째 인수는 구간당 사건 발생률 보다는 특성 수명으로 표현된다. 기호로 그리스 문자 $\eta$(에타)를 사용한다. 척도(scale) 변수라고도 한다.

-rweibull(100, 1.5, 5000) : 1.5의 형상 파라미터와 5,000의 특성 수명을 갖는 베이불 분포에서 100개의 난수(수명)를 생성한다.


※ 여기서는 간단히 분포의 종류에 대해서만 알아보고 각 각의 분포에 대해서는 추후에 따로 다뤄보도록 하겠다.

<참고자료>
1. Peter Brucs & Andrew Brucs (2018), 데이터 과학을 위한 통계. 한빛미디어. 이용준 옮김.
2. Student's t-distribution, Wikipedia(t-distribution 그래프)

+ Recent posts