1. 3. 위치 추정

- 데이터를 살펴보는 가장 기초적인 단계는 각 Feature(변수)의 '대푯값(typical value')을 구하는 것이다. 이는 곧 대부분의 값이 어디쯤에 위치하는지(중심 경향성)를 나타내는 추정 값이다.

 

용어 의미
평균(Mean) 모든 값의 총합을 갯수로 나눈 값
가중 평균(Weighted Mean) 가중치를 곱한 값의 총합을 가중치의 총합으로 나눈 값
중간값(Median) 데이터에서 가장 가운데 위치한 값
가중 중간값(Weigthed Median) 데이터를 정렬한 후, 각 가중치 값을 위에서부터 더할 때, 총합의 중간이 위치하는 데이터 값
절사 평균(Trimmed Mean) 정해진 갯수의 극단값을 제외한 나머지 값들의 평균
로버스트하다(Robust) 극단값들에 민감하지 않다는 것을 의미한다.
특잇값(Outlier) 대부분의 값과 매우 다른 데이터 값(=이상치)

평균

- 가장 기본적인 위치 추정 방법으로 모든 값의 총합을 값의 개수로 나눈 값이다. 따라서 특잇값(이상치)의 영향을 많이 받는다.

평균$ =\overline{x}=\frac{\sum_i^nx_{i}}{n}$

절사 평균

- 값들을 크기 순으로 정렬한 후, 양끝에서 일정 개수의 값들을 삭제한 뒤 남은 값들을 가지고 구한 평균을 말한다. 따라서 극단값을 제거함으로써 특잇값(이상치)의 영향 줄이기 위해서 많이 사용된다.

절사 평균$ =\overline{x}=\frac{\sum_{i=p+1}^{n-p}x_{(i)}}{n-2p}$

여기서 p는 가장 크고 작은 값들의 쌍을 의미한다. 즉, p=1인 경우 가장 작은 값 $x_{(1)}$과 가장 큰 값 $x_{(n)}$을 제거했다는 것을 의미한다.

가중 평균 

- 각 데이터 값 $x_{i}$에 가중치 $w_{i}$를 곱한 값들의 총합을 다시 가중치의 총합으로 나누는 방법이다.

가중평균$ =\overline{x_w}=\frac{\sum_{i=1}^{n}w_{i}x_{i}}{\sum_{i}^{n}w_{i}}$

  • 어떤 값들이 본래 다른 값들에 비해 큰 변화량을 가질 때, 이러한 관측값에 대해 더 작은 가중치를 줄 수 있다.
  • 데이터를 수집할 때, 서로 다른 대조군에 대해서 항상 똑같은 수가 얻어지지 않는다. 이를 보정하기 위해서, 데이터가 부족한 소수 그룹에 대해 더 높은 가중치를 적용한다.

중간값

- 데이터를 일렬로 정렬했을 때, 한가운데 위치하는 값. 데이터의 개수가 짝수라면 가운데에 있는 두 값의 평균으로 한다. 따라서 특잇값(극단값)들의 영향을 받지 않으므로 로버스트한 위치 추정 방법이라고 알려져 있다.

특잇값

- 어떤 데이터 집합에서 다른 값들과 매우 멀리 떨어져 있는 값들을 말한다.

 

 

가장 기본적인 위치 추정 방법은 평균이다. 하지만 극단값(이상치)에 영향을 많이 받는 방법이다.

따라서 상황에 맞춰 좀 더 로버스트한 방법인 중간값과 절사평균을 활용한다.


1. 4. 변이 추정

- 변이(variability)는 데이터 값이 얼마나 밀집해 있는지 혹은 퍼져있는지를 나타내는 산포도(dispersion)를 나타낸다. 변이를 측정하고, 이를 줄이고, 실제 변이와 랜덤을 구분하고, 실제 변이의 다양한 요인들을 알아보고, 변이가 있는 상황에서 결정을 내리는 등, 통계의 핵심에 이 변이가 있다.

용어 의미
편차(deviation) 관측값과 위치 추정값사이의 차이(=오차, 잔차)
분산(variance) 평균과의 편차를 제곱한 값들의 합을$n-1$로 나눈 값. $n$은 데이터의 갯수
표준편차(standard deviation) 분산의 제곱근
평균절대편차
(mean absolute deviation)
평균과의 편차의 절댓값의 평균
중간값의 중위절대편차
(median absolute deviation from the median)
중간값과의 편차의 절댓값의 중간값
범위(range) 데이터의 최댓값과 최솟값의 차이
순서통계량(order statistics) 최소에서 최대까지 정렬된 데이터 값에 따른 계량형
백분위수(percentile) 어떤 값들의 $P$퍼센트가 이 값 혹은 더 작은 값을 갖고 $(100-P)$퍼센트가 이 값 혹은 더 큰 값을 갖도록 하는 값
사분위범위(interquartile range) 75번째 백분위수(=3분위)와 25번째 백분위수(=1분위) 사이의 차이(=IQR)

 

1. 4. 1. 표준편차와 관련된 추정값들

편차

- 관측값과 위치 추정값 사이의 차이. 데이터가 중앙값을 주변으로 얼마나 퍼져 있는지 말해준다. 변이를 측정하는 한 가지 방법은 바로 편차들의 대푯값을 추정하는 것이다. 하지만 평균을 기준으로 하는 편차들의 합은 항상 0이기 때문에 편차의 평균을 구하는 것은 바람직하지 않다. 이를 보안하기 위해서 편차의 절댓값의 평균을 구하는 것이다. 이것을 평균절대편차라고 한다.

평균절대편차$ =\frac{\sum_{i=1}^{n}|x_i-\bar{x}|}{n}$

분산과 표준편차

분산은 제곱 편차의 평균이고, 표준편차는 분산의 제곱근이다. 그렇기 때문에 표준편차는 원래 데이터와 같은 척도(scale)에 있기 때문에 분산보다 훨씬 해석하기가 쉽다.

분산$ =s^2=\frac{\sum_{}^{}(x-\bar{x})^2}{n-1}$

표준편차=$s$

자유도

자유도(degrees of freedom)는 변화할 자유가 있는 논리적으로 독립적인 값들의 최댓값을 의미한다. 간단한 예시를 통해서 자유도 개념의 이해를 돕는다.

  • 양의 정수 5개로 구성된 데이터 표본이 존재한다.

  • 표본에 포함된 숫자 중 4개의 데이터는 {3, 8, 5, 4}이며 전체 데이터 표본의 평균은 6이다.

  • 따라서 다섯 번째 숫자는 10이라는 것을 알 수 있으며, 10 이외의 다를 숫자는 아니다.

  • 그렇기 때문에 이 데이터 표본의 자유도는 4이다.

- 만약 분산 수식에 $n$을 분모로 사용한다면, 모집단의 분산과 표준편차의 참값을 과소평가하게 된다. 이를 편향(biased) 추정이라고 부른다. 하지만 만약 $n$ 대신 $n-1$로 나눈다면, 분산은 비편향(unbiased) 추정이 된다.

 

분산, 표준편차, 평균절대편차 모두 특잇값과 극단값에 로버스트하지 않다. 분산과 표준편차는 제곱 편차를 사용하기 때문에, 특히 특잇값에 민감하다. 로버스트한 변위 추정값으로는 중간값으로부터의 중위절대편차(MAD)가 있다. 중간값의 특징을 따라 MAD는 극단값의 영향을 받지 않는다. 절사 평균과 유사하게 절사 표준편차를 계산하는 것 역시 가능하다.

 

중위표준편차=중간값$(|x_1-m|,|x_2-m|,\cdot\cdot\cdot,|x_n-m|)$

 

<참고자료>
1. Peter Brucs & Andrew Brucs (2018), 데이터 과학을 위한 통계. 한빛미디어. 이용준 옮김.
2. Akhilesh Ganti, "Degrees of Freedom", Investopedia, 2019(www.investopedia.com/terms/d/degrees-of-freedom.asp)

+ Recent posts