1. 정형 데이터(Structured data)

정형 데이터는 미리 정해진 규칙(스키마)을 사용하여 생성된 데이터로, 일반적으로 표 형태로 나타난다.

* 스키마는 데이터베이스를 구성하는 데이터 개체(Entity), 속성(Attribute), 관계(Relationship) 및 데이터 조작 시 데이터 값들이 갖는 제약 조건 등에 관해 전반적으로 정의한다.

 

1) 수치형 데이터

- 연속형(continuous) : 일정 범위 안에서 어떤 값이든 취할 수 있는 데이터

- 이산(discrete) : 횟수와 같은 정수 값만 취할 수 있는 데이터

 

2) 범주형 데이터(categorical) : 가능한 범주 안의 값만 취하는 데이터

- 이진(binary) : 두 개의 값(0/1 혹은 참/거짓)만을 갖는 범주형 데이터의 특수한 경우다.

                          (이항적, 논리형, 지표indicator, 불리언boolean 데이터)

- 순서형(ordinal) : 값들 사이에 분명한 순위가 있는 범주형 데이터다.

 

Category

currency

sellerRating

Duration

endDay

ClosePrice

OpenPrice

Competitive?

Music/Movie/Game

US

3249

5

Mon

0.01

0.01

0

Music/Movie/Game

US

3249

5

Mon

0.01

0.01

0

Automotive

US

3115

7

Tue

0.01

0.01

0

Automotive

US

3115

7

Tue

0.01

0.01

0

Automotive

US

3115

7

Tue

0.01

0.01

0

Automotive

US

3115

7

Tue

0.01

0.01

0

Automotive

US

3115

7

Tue

0.01

0.01

1

Automotive

US

3115

7

Tue

0.01

0.01

1

[ 표 1 ] 정형 데이터의 예시

 

2. 비정형 데이터(Unstructured data)

비정형 데이터는 정형 데이터에 반대되는 의미를 지닌 단어이다. 특정한 규칙 없이 생성된 데이터로 텍스트, 이미지, 동영상 등 다양한 형태로 볼 수 있다. 우리 주변에서 볼 수 있는 데이터의 80% 정도가 비정형 데이터에 해당된다. 따라서 빅데이터의 분석에서 비정형 데이터 분석이 상당한 부분을 차지한다. 그렇다고 비정형 데이터 분석만 중요하다는 것은 아니다.

 

3. 반정형 데이터(Semi-structured data)

반정형 데이터는 완전한 정형은 아니지만 정형 데이터의 특징을 지닌 데이터이다. 즉, 정형 데이터는 데이터의 스키마 정보를 관리하는 DBMS와 데이터 내용이 저장되는 데이터 저장소로 구분되지만, 반정형 데이터는 데이터 내부에 정형 데이터의 스키마에 해당되는 메타데이터를 갖고 있다. 반정형 데이터의 대표적인 예시로는 HTML, XML이나 JSON이 있으며, 일반적으로 파일 형태로 저장된다.

 

[{"Sepal.Length" : 6.8,
  "Sepal.Width" : 3.2,
  "Petal.Length" : 5.9,
  "Petal.Length" : 2.3,
  "Species" : "virginica"},
{"Sepal.Length" : 6.7,
 "Sepal.Width" : 3.3,
 "Petal.Length" : 5.7,
 "Petal.Length" : 2.5,
 "Species" : "virginica"}]


[ 표 2 ] 반정형 데이터의 예시

 


결론적으로 데이터 종류를 분류하는 것은 데이터를 분석하고 예측 모델을 만들 때, 시각화 등에 데이터의 종류가 중요한 역할을 하기 때문이다. 따라서 데이터의 종류에 대한 지식을 가지는 것이 중요하다.(필자는 반정형 데이터에 대한 지식을 더 쌓을 필요가 있다.)

 

< 참고 자료 >
1. Peter Brucs & Andrew Brucs (2018), 데이터 과학을 위한 통계. 한빛미디어. 이용준 옮김.
2. wordlift.io/blog/en/entity/structured-data/
3. www.dbguide.net/db.db?cmd=view&boardUid=186813&boardConfigUid=9&categoryUid=216&boardIdx=152&boardStep=1

 

+ Recent posts