5. 회귀방정식 해석

- Dats Science에서 회귀의 가장 중요한 용도는 일부 종속변수를 예측하는 것이다.

용어 의미
변수 간 상관(correlated variables) 예측변수들끼리 서로 높은 상관성을 갖을 때, 개별 계수를 해석하는 것은 어렵다.
다중공선성(multicollinearity) 예측변수들이 완벽하거나 거의 완벽에 가까운 상관성을 갖는다고 할 때, 회귀는 불안정하며 계산이 불가능하다.
교란변수(confounding variable) 중요한 예측변수지만 회귀방정식에 누락되어 결과를 잘못되게 이끄는 변수
주효과(main effect) 다른 변수들과 독립된, 하나의 예측변수와 결과변수 사이의 관계
상포작용(interaction) 둘 이상의 예측변수와 응답변수 사이의 상호 의존적인 관계

1) 예측변수 간 상관

- 상호 연관된 예측변수들을 사용하면 회귀계수의 부호와 값의 의미를 해석하기가 어려울 수 있다.(또한 추정치의 표준오차가 커진다.)

2) 다중공선성

  • 오류로 인해 한 변수가 여러 번 포함된 경우
  • 요인변수로부터 $P-1$개가 아닌 $P$개의 가변수가 만들어진 경우
  • 두 변수가 서로 거의 완벽하게 상관성이 있는 경우

위의 경우에 다중공선성이 나타나며, 이는 예측변수 사이의 중복성을 판단하는 조건이 된다.

 

※ 다중공선성이 존재하는 상황에서는 회귀를 통해 제대로 된 답을 얻을 수가 없다.

3) 교란변수

- 교란변수는 회귀방정식에 중요한 변수가 포함되지 못해서 생기는 누락의 문제이다.

4) 상호작용과 주효과

통계학자는 주효과(독립변수)와 주효과 사이의 상호작용을 구별하기 좋아한다. 주효과는 회귀방정식에서 종종 예측변수라고 불린다. 모델에서 주효과만 사용한다면, 여기에는 예측변수와 응답변수 간의 관계가 다른 예측변수들에 대해 독립적이라는 암묵적인 가정이 있다. 하지만, 이것은 종종 사실이 아니다.


6. 가정 검정: 회귀 진단

용어 의미
표준화잔차(standardized residual) 잔차를 표준오차로 나눈 값
특잇값(outliet) 나머지 데이터(혹은 예측값)와 멀리 떨어진 레코드(혹은 출력값)
영향값(influential value) 있을 때와 없을 때 회귀방정식이 큰 차이를 보이는 값 혹은 레코드
지렛대(leverage) 회귀식에 한 레코드가 미치는 영향력의 정도
비정규 잔차(non-normal residual) 정규분포를 따르지 않는 잔차는 회귀분석의 요건을 무효로 만들 수 있다. 데이터 과학에서는 별로 중요하게 다뤄지지 않는다.
이분산성(heteroskedasticity) 어떤 범위 내 출력값의 잔차가 매우 놓은 분산을 보이는 경향(어떤 예측변수를 회귀식이 놓치고 있다는 것을 의미할 수 있다.)
편잔차그림(partial residual plot) 결과 변수와 특정 예측변수 사이의 관계를 진단하는 그림

1) 특잇값

- 대부분의 측정치에서 멀리 벗어난 값을 의미한다. 회귀에서 특잇값은 실제 $y$값이 예측된 값에서 멀리 떨어져 있는 경우를 말한다. 잔차를 표준오차로 나눈 값을 표준화잔차라고 하는데 바로 이 값을 조사해서 특잇값을 발견할 수 있다.

 

- 특잇값을 정상값들과 구분하는 데에 대한 통계 이론은 없다. 그보다, 어떤 관측값을 특잇값이라고 부르려면 다수 데이터로부터 얼마나 떨어져 있어야 하는지에 대한 (임의의) 경험칙이 존재한다.

2) 영향값

- 회귀모형에서 제외됐을 때 모델에 중요한 변화를 가져오는 값을 주영향관측값(influential observation)이라고 한다.

- 데이터 값은 회귀 결과에 큰 영향을 미치지만, 원래 회귀에서 큰 특잇값으로 나타난 것은 아니다. 이 데이터 값은 회귀에 대한 높은 레버리지를 가진 것으로 볼 수 있다.

 

- 레버리지를 측정하는 일반적인 척도는 햇 값(hat-value)이다. $2(P+1)/n$ 이상의 값들은 레버리지가 높은 데이터 값을 타나낸다.

 

- 또 다른 측정 지표는 쿡의 거리(Cook's distance)이다. 이것은 레버리지와 잔차의 크기를 합쳐서 영향력을 판단한다. 경험칙에 따르면, 쿡의 거리가 $4/(n-P-1)$ 보다 크면 영향력이 높다고 보는 편이다.

3) 이분산성, 비정규성, 오차 간 상관

잔차의 가정

- 동일한 분산을 가진다.

- 정규분포를 따른다.

- 서로 독립이다.

 

- 이분산성 : 다양한 범위의 예측값에 따라 잔차의 분산이 일정하지 않은 것. -> ggplot2 패키지를 사용하면 잔차들의 분포를 쉽게 구할 수 있다.

 

- 더빈-왓슨 통계량(Durbin-Watson Statistic) : 시계열 데이터를 다루는 회귀분석에서 유의미한 자기상관이 있는데 탐지.

4) 편잔차그림과 비선형성

- 편잔차그림 : 예측 모델이 예측변수와 결과변수 간의 관계를 얼마나 잘 설명하는지 시각화하는 방법.

-> 기본개념은 하나의 예측변수와 응답변수 사이의 관계를 모든 다른 예측변수로부터 분리하는 것이다.

 

편잔차 = 잔차 + $\widehat{b_i}X_i$


7. 다항회귀와 스플라인 회귀

- 응답변수와 예측변수 간의 관계가 반드시 선형일 필요가 없다.

용어 의미
다항회귀(polynomial regression) 회귀모형에서 다항식(제곱, 세제곱 등) 항을 추가한 방식
스플라인 회귀(spline regression) 다항 구간들을 부드러운 곡선 형태로 피팅한다.
매듭(knot) 스플라인 구간을 구분하는 값들
일반화가법모형(generalized additive model) 자동으로 구간을 결정하는 스플라인 모델

 

- 비선형회귀(nonlinear regression)은 최소제곱 방법으로 피팅할 수 없는 모델을 의미한다. 비선형회귀 모델은 수치 최적화가 필요하기 때문에 피팅하기가 어렵고 더 많은 계산을 필요로 한다. 이러한 이유로 선형모형을 이용하는 것이 일반적이다.

1) 다항식

- 회귀식에 다항 항을 포함한 것을 말한다.

$Y = b_0 + b_1X + b_2X^2 + e$

 

- R에서 poly 함수를 이용해 구할 수 있다.

2) 스플라인

- 비선형 관계를 모델링하는 또 더 나은 방법은 스플라인을 이용하는 것이다. 스플라인은 고정된 점들 사이를 부드럽게 보간하는 방법을 말한다.

 

- R 패키지 splines는 회귀모형에서 b-스플라인(b-spline) 항을 만드는 데 사용할 수 있는 bs함수를 포함한다.

 

- 스플라인 항의 계수는 해석하기 어렵다. 대신, 스플라인의 적합도를 확인하기 위해 시각화 방법을 사용하는 것이 유용하다.

3) 일반화가법모형

- 일반화가법모형(GAM)은 스플라인 회귀를 자동으로 찾는 기술이다.

- R의 gam패키지를 사용한다.(library : mgcv)

 


  • 회귀분석에서 특잇값은 잔차가 큰 레코드를 말한다.
  • 다중공선성은 회귀방정식을 피팅할 때 수치 불안정성을 가져올 수 있다.
  • 교란변수는 모델에서 생략된 중요한 예측변수이며 허위 관계를 보여주는 회귀 결과를 낳을 수 있다.
  • 한 변수의 효과가 다른 변수의 수준에 영향을 받는다면 두 변수 사이의 상호작용을 고려할 항이 필요하다.
  • 다항회귀분석은 예측변수와 결과변수 간의 비선형 관계를 검증할 수 있다.
  • 스플라인은 매듭들로 함께 묶여 있는 일련의 구간별 다항식을 말한다.
  • 일반화가법모형(GAM)은 스플라인의 맫브을 자동으로 결정하는 프로세스를 가지고 있다.

 

< 참고자료 >
1. Peter Brucs & Andrew Brucs (2018), 데이터 과학을 위한 통계. 한빛미디어. 이용준 옮김.

'공부 > 데이터 과학을 위한 통계(한빛미디어)' 카테고리의 다른 글

14. 분류(2)  (0) 2021.01.05
13. 분류(1)  (0) 2021.01.01
11. 회귀와 예측(1)  (0) 2020.10.25
10. 통계적 실험과 유의성 검정(2)  (0) 2020.10.20
9. 통계적 실험과 유의성 검정(1)  (0) 2020.10.12

1. 3. 위치 추정

- 데이터를 살펴보는 가장 기초적인 단계는 각 Feature(변수)의 '대푯값(typical value')을 구하는 것이다. 이는 곧 대부분의 값이 어디쯤에 위치하는지(중심 경향성)를 나타내는 추정 값이다.

 

용어 의미
평균(Mean) 모든 값의 총합을 갯수로 나눈 값
가중 평균(Weighted Mean) 가중치를 곱한 값의 총합을 가중치의 총합으로 나눈 값
중간값(Median) 데이터에서 가장 가운데 위치한 값
가중 중간값(Weigthed Median) 데이터를 정렬한 후, 각 가중치 값을 위에서부터 더할 때, 총합의 중간이 위치하는 데이터 값
절사 평균(Trimmed Mean) 정해진 갯수의 극단값을 제외한 나머지 값들의 평균
로버스트하다(Robust) 극단값들에 민감하지 않다는 것을 의미한다.
특잇값(Outlier) 대부분의 값과 매우 다른 데이터 값(=이상치)

평균

- 가장 기본적인 위치 추정 방법으로 모든 값의 총합을 값의 개수로 나눈 값이다. 따라서 특잇값(이상치)의 영향을 많이 받는다.

평균$ =\overline{x}=\frac{\sum_i^nx_{i}}{n}$

절사 평균

- 값들을 크기 순으로 정렬한 후, 양끝에서 일정 개수의 값들을 삭제한 뒤 남은 값들을 가지고 구한 평균을 말한다. 따라서 극단값을 제거함으로써 특잇값(이상치)의 영향 줄이기 위해서 많이 사용된다.

절사 평균$ =\overline{x}=\frac{\sum_{i=p+1}^{n-p}x_{(i)}}{n-2p}$

여기서 p는 가장 크고 작은 값들의 쌍을 의미한다. 즉, p=1인 경우 가장 작은 값 $x_{(1)}$과 가장 큰 값 $x_{(n)}$을 제거했다는 것을 의미한다.

가중 평균 

- 각 데이터 값 $x_{i}$에 가중치 $w_{i}$를 곱한 값들의 총합을 다시 가중치의 총합으로 나누는 방법이다.

가중평균$ =\overline{x_w}=\frac{\sum_{i=1}^{n}w_{i}x_{i}}{\sum_{i}^{n}w_{i}}$

  • 어떤 값들이 본래 다른 값들에 비해 큰 변화량을 가질 때, 이러한 관측값에 대해 더 작은 가중치를 줄 수 있다.
  • 데이터를 수집할 때, 서로 다른 대조군에 대해서 항상 똑같은 수가 얻어지지 않는다. 이를 보정하기 위해서, 데이터가 부족한 소수 그룹에 대해 더 높은 가중치를 적용한다.

중간값

- 데이터를 일렬로 정렬했을 때, 한가운데 위치하는 값. 데이터의 개수가 짝수라면 가운데에 있는 두 값의 평균으로 한다. 따라서 특잇값(극단값)들의 영향을 받지 않으므로 로버스트한 위치 추정 방법이라고 알려져 있다.

특잇값

- 어떤 데이터 집합에서 다른 값들과 매우 멀리 떨어져 있는 값들을 말한다.

 

 

가장 기본적인 위치 추정 방법은 평균이다. 하지만 극단값(이상치)에 영향을 많이 받는 방법이다.

따라서 상황에 맞춰 좀 더 로버스트한 방법인 중간값과 절사평균을 활용한다.


1. 4. 변이 추정

- 변이(variability)는 데이터 값이 얼마나 밀집해 있는지 혹은 퍼져있는지를 나타내는 산포도(dispersion)를 나타낸다. 변이를 측정하고, 이를 줄이고, 실제 변이와 랜덤을 구분하고, 실제 변이의 다양한 요인들을 알아보고, 변이가 있는 상황에서 결정을 내리는 등, 통계의 핵심에 이 변이가 있다.

용어 의미
편차(deviation) 관측값과 위치 추정값사이의 차이(=오차, 잔차)
분산(variance) 평균과의 편차를 제곱한 값들의 합을$n-1$로 나눈 값. $n$은 데이터의 갯수
표준편차(standard deviation) 분산의 제곱근
평균절대편차
(mean absolute deviation)
평균과의 편차의 절댓값의 평균
중간값의 중위절대편차
(median absolute deviation from the median)
중간값과의 편차의 절댓값의 중간값
범위(range) 데이터의 최댓값과 최솟값의 차이
순서통계량(order statistics) 최소에서 최대까지 정렬된 데이터 값에 따른 계량형
백분위수(percentile) 어떤 값들의 $P$퍼센트가 이 값 혹은 더 작은 값을 갖고 $(100-P)$퍼센트가 이 값 혹은 더 큰 값을 갖도록 하는 값
사분위범위(interquartile range) 75번째 백분위수(=3분위)와 25번째 백분위수(=1분위) 사이의 차이(=IQR)

 

1. 4. 1. 표준편차와 관련된 추정값들

편차

- 관측값과 위치 추정값 사이의 차이. 데이터가 중앙값을 주변으로 얼마나 퍼져 있는지 말해준다. 변이를 측정하는 한 가지 방법은 바로 편차들의 대푯값을 추정하는 것이다. 하지만 평균을 기준으로 하는 편차들의 합은 항상 0이기 때문에 편차의 평균을 구하는 것은 바람직하지 않다. 이를 보안하기 위해서 편차의 절댓값의 평균을 구하는 것이다. 이것을 평균절대편차라고 한다.

평균절대편차$ =\frac{\sum_{i=1}^{n}|x_i-\bar{x}|}{n}$

분산과 표준편차

분산은 제곱 편차의 평균이고, 표준편차는 분산의 제곱근이다. 그렇기 때문에 표준편차는 원래 데이터와 같은 척도(scale)에 있기 때문에 분산보다 훨씬 해석하기가 쉽다.

분산$ =s^2=\frac{\sum_{}^{}(x-\bar{x})^2}{n-1}$

표준편차=$s$

자유도

자유도(degrees of freedom)는 변화할 자유가 있는 논리적으로 독립적인 값들의 최댓값을 의미한다. 간단한 예시를 통해서 자유도 개념의 이해를 돕는다.

  • 양의 정수 5개로 구성된 데이터 표본이 존재한다.

  • 표본에 포함된 숫자 중 4개의 데이터는 {3, 8, 5, 4}이며 전체 데이터 표본의 평균은 6이다.

  • 따라서 다섯 번째 숫자는 10이라는 것을 알 수 있으며, 10 이외의 다를 숫자는 아니다.

  • 그렇기 때문에 이 데이터 표본의 자유도는 4이다.

- 만약 분산 수식에 $n$을 분모로 사용한다면, 모집단의 분산과 표준편차의 참값을 과소평가하게 된다. 이를 편향(biased) 추정이라고 부른다. 하지만 만약 $n$ 대신 $n-1$로 나눈다면, 분산은 비편향(unbiased) 추정이 된다.

 

분산, 표준편차, 평균절대편차 모두 특잇값과 극단값에 로버스트하지 않다. 분산과 표준편차는 제곱 편차를 사용하기 때문에, 특히 특잇값에 민감하다. 로버스트한 변위 추정값으로는 중간값으로부터의 중위절대편차(MAD)가 있다. 중간값의 특징을 따라 MAD는 극단값의 영향을 받지 않는다. 절사 평균과 유사하게 절사 표준편차를 계산하는 것 역시 가능하다.

 

중위표준편차=중간값$(|x_1-m|,|x_2-m|,\cdot\cdot\cdot,|x_n-m|)$

 

<참고자료>
1. Peter Brucs & Andrew Brucs (2018), 데이터 과학을 위한 통계. 한빛미디어. 이용준 옮김.
2. Akhilesh Ganti, "Degrees of Freedom", Investopedia, 2019(www.investopedia.com/terms/d/degrees-of-freedom.asp)

+ Recent posts