1. 7. 상관관계
-
양의 상관관계 : X가 큰 값을 가지면 Y도 큰 값을 갖고 X가 작은 값을 가지면 Y도 작은 값을 갖는 경우, 변수 X와 Y는 서로 양의 상관관계를 갖는다고 말한다.
-
음의 상관관계 : X가 큰 값을 갖는데 Y는 작은 값을 갖고 반대의 경우도 마찬가지라면, 이 변수들은 서로 음의 상관관계를 갖는다고 한다.
용어 | 의미 |
상관계수(correlation coefficient) | 수치적 변수들 간에 어떤 관계가 있는지를 나타내기 위해 사용되는 측정량 (-1에서 +1까지의 범위) |
상관행렬(correlation matrix) | 행과 열이 변수들을 의미하는 표를 말하며, 각 셀은 그 행과 열에 해당하는 변수들 간의 상관관계를 의미한다. |
산점도(scatterplot) | x축과 y축이 서로 다른 두 개의 변수를 나타내는 도표 |
- 상관계수(피어슨 상관계수라고도 한다)는 두 변수 사이의 상관관계를 항상 같은 척도에 놓고 추정하는 상관관계보다 더욱 수치화된 방법이다. 피어슨 상관계수를 계산하기 위해서, 변수 1과 변수 2 각각의 평균으로부터의 편차들을 서로 곱한 값들의 평균을 각 변수의 표준편차의 곱으로 나눠준다.
$r=\frac{\sum_{i=1}^{N}(x_i-\bar{x})(y_i-\bar{y})}{(N-1)s_xs_y}$
상관계수는 항상 +1(완전한 양의 상관관계)와 -1(완전한 음의 상관관계) 사이에 존재한다. 만약 변수들이 선형적인 관계를 갖지 않을 경우, 상관계수는 유용한 측정 지표가 아니다.
T | CTL | FTR | VZ | LVLT | |
T | 1.000 | 0.475 | 0.328 | 0.678 | 0.279 |
CTL | 0.475 | 1.000 | 0.420 | 0.417 | 0.287 |
FTR | 0.328 | 0.420 | 1.000 | 0.287 | 0.260 |
VZ | 0.678 | 0.417 | 0.287 | 1.000 | 0.242 |
LVLT | 0.279 | 0.287 | 0.260 | 0.242 | 1.000 |
상관행렬에서 행렬의 대각 원소들은 모두 1(자기 자신과 상관관계는 1이다)이라는 것, 그리고 대각 원소 아래쪽은 위쪽과 같은 값을 갖는 대각 행렬이라는 점을 기억하자. R에서는 corrplot 패키지를 사용하면 쉽게 그릴 수 있다. corrplot 패키지는 다른 글에서 상세하게 다뤄볼 예정이다.
1. 7. 1. 산점도
- 두 변수 사이의 관계를 시각화하는 가장 기본적인 방법이다. x, y축은 각각의 변수들의 의미하고 그래프의 각 점은 하나의 레코드를 의미한다. 아래의 산점도의 경우에는 두 변수는 음의 상관성을 보인다.
※ 피어슨 상관계수를 포함한 여러 상관계수와 R의 corrplot 패키지와 산점도를 그리는 plot 명령어에 대한 학습이 필요하다.
<참고자료>
1. Peter Brucs & Andrew Brucs (2018), 데이터 과학을 위한 통계. 한빛미디어. 이용준 옮김.
2. Scatter plot, Wikipedia(https://en.wikipedia.org/wiki/Scatter_plot)
'공부 > 데이터 과학을 위한 통계(한빛미디어)' 카테고리의 다른 글
6. 데이터와 표본 (0) | 2020.10.06 |
---|---|
5. 다변수 탐색 (0) | 2020.10.06 |
3. 탐색적 데이터 분석(EDA) (0) | 2020.10.05 |
2. 간단한 추정(위치 추정/변이 추정) (0) | 2020.10.05 |
1. 데이터의 분류(정형/반정형/비정형 데이터) (0) | 2020.09.26 |