1. 7. 상관관계

  • 양의 상관관계 : X가 큰 값을 가지면 Y도 큰 값을 갖고 X가 작은 값을 가지면 Y도 작은 값을 갖는 경우, 변수 X와 Y는 서로 양의 상관관계를 갖는다고 말한다.

  • 음의 상관관계 : X가 큰 값을 갖는데 Y는 작은 값을 갖고 반대의 경우도 마찬가지라면, 이 변수들은 서로 음의 상관관계를 갖는다고 한다.

용어 의미
상관계수(correlation coefficient) 수치적 변수들 간에 어떤 관계가 있는지를 나타내기 위해 사용되는 측정량
(-1에서 +1까지의 범위)
상관행렬(correlation matrix) 행과 열이 변수들을 의미하는 표를 말하며, 각 셀은 그 행과 열에 해당하는 변수들 간의 상관관계를 의미한다.
산점도(scatterplot) x축과 y축이 서로 다른 두 개의 변수를 나타내는 도표

- 상관계수(피어슨 상관계수라고도 한다)는 두 변수 사이의 상관관계를 항상 같은 척도에 놓고 추정하는 상관관계보다 더욱 수치화된 방법이다. 피어슨 상관계수를 계산하기 위해서, 변수 1과 변수 2 각각의 평균으로부터의 편차들을 서로 곱한 값들의 평균을 각 변수의 표준편차의 곱으로 나눠준다.

 

$r=\frac{\sum_{i=1}^{N}(x_i-\bar{x})(y_i-\bar{y})}{(N-1)s_xs_y}$

 

상관계수는 항상 +1(완전한 양의 상관관계)와 -1(완전한 음의 상관관계) 사이에 존재한다. 만약 변수들이 선형적인 관계를 갖지 않을 경우, 상관계수는 유용한 측정 지표가 아니다.

 

  T CTL FTR VZ LVLT
T 1.000 0.475 0.328 0.678 0.279
CTL 0.475 1.000 0.420 0.417 0.287
FTR 0.328 0.420 1.000 0.287 0.260
VZ 0.678 0.417 0.287 1.000 0.242
LVLT 0.279 0.287 0.260 0.242 1.000

 

상관행렬에서 행렬의 대각 원소들은 모두 1(자기 자신과 상관관계는 1이다)이라는 것, 그리고 대각 원소 아래쪽은 위쪽과 같은 값을 갖는 대각 행렬이라는 점을 기억하자. R에서는 corrplot 패키지를 사용하면 쉽게 그릴 수 있다. corrplot 패키지는 다른 글에서 상세하게 다뤄볼 예정이다.

1. 7. 1. 산점도

- 두 변수 사이의 관계를 시각화하는 가장 기본적인 방법이다. x, y축은 각각의 변수들의 의미하고 그래프의 각 점은 하나의 레코드를 의미한다. 아래의 산점도의 경우에는 두 변수는 음의 상관성을 보인다.

그림 1. 산점도

※ 피어슨 상관계수를 포함한 여러 상관계수와 R의 corrplot 패키지와 산점도를 그리는 plot 명령어에 대한 학습이 필요하다.

 

<참고자료>
1. Peter Brucs & Andrew Brucs (2018), 데이터 과학을 위한 통계. 한빛미디어. 이용준 옮김.
2. Scatter plot, Wikipedia(https://en.wikipedia.org/wiki/Scatter_plot)

+ Recent posts