1. 8. 두 개 이상의 변수 탐색하기

- 다루는 변수의 개수에 따라서 하나일 때 일변량 분석(univariate analysis), 상관분석과 같이 두 변수를 취급할 때 이변량 분석(bivariate analysis) 그리고 셋 이상의 변수를 다루는 다변량 분석(multivariate anaylsis)이 있다.

용어 의미
분할표(contingency table) 두 가지 이상의 범주형 변수의 빈도수를 기록한 표
육각형 구간(hexagonal binning) 두 변수를 육각형 모양의 구간으로 나눈 그림
등고 도표(contour plot) 두 변수의 밀도를 등고선으로 표시한 도표
바이올린 도표(violin plot) 상자그림과 비슷하지만 밀도추정을 함께 보여준다.

- 일변량분석과 이변량 분석은 요약 통계를 계산하고 시각화하는 것을 기본으로 한다. 이변량 분석과 다변량 분석의 형태는 데이터가 수치형인지 범주형인지, 데이터의 특성에 따라 달라진다.

1. 8. 1. 육각형 구간과 등고선(수치형 변수 대 수치형 변수를 시각화)

- 산점도는 데이터의 개수가 상대적으로 적을 때는 유용하다. 하지만 데이터의 개수가 많을 때는 사용하기 어려움이 있다. 이를 해결하기 위해서 육각형 구간 그림을 사용한다. 데이터를 점으로 표시하는 대신 기록값들을 육각형 모양의 구간들로 나누고 각 구간에 포함된 기록값의 개수에 따라 색깔을 표시한다. R의 ggplot2 패키지를 사용해서 쉽게 그릴 수 있다.

그림 1. 육각형 구간 그림

- 등고도표는  두 수치형 변수 사이의 관계를 시각화하기 위해 산점도 위에 등고선을 사용한다. 등고선 위의 점들은 밀도가 같다. '꼭대기'쪽으로 갈수록 밀도는 높아진다. R에서 ggplot2의 geom_density2d 함수를 사용해서 그릴 수 있다.

그림 2. 등고 도표

이 외에도 두 수치형 변수의 관계를 나타내는 다른 도표로 히트맵(heat map) 등이 있다.

1. 8. 2. 범주형 변수 대 범주형 변수

- 범주표는 빈도수를 기록한 표를 뜻하는데 두 범주형 변수를 요약하는 데 효과적인 방법이다. R에서 descr 패키지에서 CrossTable 함수를 활용해 분할표를 만들 수 있다.

 

Grade Fully paid Currnet Late Charged off Total
A 20715
0.277
52058
0.695
494
0.0007
1588
0.021
74855
0.161
B 31782
0.232
97601
0.713
2149
0.016
5384
0.039
136916
0.294
C 23773
0.190
02444
0.738
2895
0.023
6163
0.049
125275
0.269
D 14036
0.183
55287
0.719
2421
0.031
5131
0.067
76875
0.165
E 6089
0.170
25344
0.709
2898
0.081
2898
0.081
35752
0.077
F 2376
0.180
8675
0.656
1556
0.118
1556
0.118
13228
0.028
G 655
0.197
2042
0.615
419
0.126
419
0.126
4422
0.007
Total 99426 333451 10207 23139 466223

표 1. 분할표

1. 8. 3. 범주형 변수 대 수치형 변수

- 상자그림은 범주형 변수에 따라 분류된 수치형 변수의 분포를 시각화하여 비교하는 간단한 방법이다. 바이올린 도표는 상자그림을 보완한 형태로, y축을 따라 밀도 추정 결과를 동시에 시각화한다. 바이올린 도표의 장점은 상자그림에서는 보이지 않는 데이터의 분포를 볼 수 있다는 점이다. R에서 ggplot2의 geom_violin 함수를 이용해 만들 수 있다.

그람 3. 바이올린 도표

1. 8. 4. 다변수 시각화하기

- 조건화(conditioning)라는 개념을 통해 두 변수 비교용 도표(산점도, 육각형 구간, 상자그림 등)를 더 여러 변수를 비교하는 용도로 확정하여 활용할 수도 있다. R에서 ggplot2의 facets라는 조건화 변수 개념을 이용한다.

- 그래픽스 시스템에서 조건화 변수라는 개념은 벨 연구소의 연구원들에 의해 개발된 트렐리스 그래픽스에서 처음 도입되었다. 이후 lattice, ggplot2와 같은 R 패키지, 그리고 Seaborn, Bokeh 같은 파이썬 패키지 등 다양한 최신 그래픽스 시스템에 영향을 주었다. 또한 조건화 변수는 태블로(Tableau)나 스폿파이어(Spotfire) 같은 비즈니스 지능형 플랫폼에서도 없어서는 안 될 중요한 요소가 되었다.


EDA의 핵심은 바로, 데이터를 다루는 모든 프로젝트에서 가장 우선적이며 가장 중요한 과정이 데이터를 들여다보는 것에 있다는 것이다. 데이터를 요약하고 시각화하는 것을 통해, 프로젝트에 대한 가치있는 통찰과 이해를 얻게 된다.
EDA은 모든 데이터 과학 프로젝트의 초석이 되어야 한다.

 

※ R에서 ggplot2을 비롯한 시각화 패키지를 조사하고 추후 다른 글을 통해서 소개할 수 있도록 한다. 이 외에서 파이썬, 태블로, 스폿파이어에 대해서 학습할 기회를 가진다. 

<참고자료>
1. Peter Brucs & Andrew Brucs (2018), 데이터 과학을 위한 통계. 한빛미디어. 이용준 옮김.
2. Hexagonal Binning, Datavizproject(https://datavizproject.com/data-type/hexagonal-binning/)
3. Contour Plot, Datavizproject(https://datavizproject.com/data-type/contour-plot/#)
4. Violin Plot, Datavizproject(https://datavizproject.com/data-type/violin-plot/)

+ Recent posts