1. 자료(데이터)의 분류/구분
※ 수집된/제시된 자료가 어떤 유형인지에 따라, 그 분석/저장/처리 등 방법에 큰 차이를 보임
- (통계적 관점) 범주형 데이터 (명목, 서열), 수치형 데이터 (계수치, 계량치 등)
. "값이 무엇을 의미하는가?"에 초점
- (형태적 관점) 정형 데이터, 비정형 데이터, 반정형 데이터
. "데이터가 어떤 구조로 저장,표현되는가?"에 초점
2. 자료(데이터)의 분류/구분 : (통계적 관점)
ㅇ (범주형) 질적 자료 (Qualitative Data), 범주 자료 (Categorical Data)
* 색깔,지역,직업,설문결과,사회계급,학력 등 `범주화/식별성 및 서열 정도 만` 가능
- 범주형 구분 ☞ 통계 척도 참조
. 명목 자료 (Nomial Data)
.. 어떤 속성을 분류하기 위해 수치 부여 (例, 남 1,여 0,혈액형 등)
. 서열 자료 (Ordinal Data)
.. 상대적인 크기 비교 (例, 사회계급,선호도,만족도,학력 등)
- 범주형 특징
. 사칙연산 의미 없음
- [참고]
. 자료의 식별 ☞ 개체, 식별 참조
. 자료의 코드화 ☞ 코드, 상품코드(바코드,QR코드,RFID 등) 참조
. 자료의 컴퓨터 표현 ☞ 알파뉴메릭 코드(ASCII,유니코드 등), 기본자료형 등 참조
ㅇ (수치형) 양적 자료 (Quantitative Data), 수치 자료 (Numerical Data)
* 나이,소득,매출액 등 수량화 가능 (수량적 자료)
- 수치형 구분 (수치 부여 유형에 따라 구분) ☞ 통계 척도 참조
. 등간 자료, 구간 자료 (Interval Data)
.. 간격이 균등한 수치 부여 (例, 온도,IQ 등)
. 비율 자료 (Ratio Data)
.. 균등 간격에 절대 영점 있음 (例, 나이,소득,무게,방문자수 등)
.. 따라서, 비율 표현 및 비교가 자연스러움
- 수치형 구분 (셀 수 있음 여부에 따라 구분)
. 계수치 (이산적, Discrete)
.. 셀 수 있는 정수 값 (例, 생산개수,불량수,나이 등)
. 계량치 (연속적, Continuous)
.. 연속 값 (例, 길이,무게,인장강도,온도,시간 등)
- 수치형 특징
. 사칙연산 가능
- [참고]
. 자료의 수치화 ☞ 셈법, 수 표현(진법체계,고정소수점,부동소수점 등) 참조
. 컴퓨터 숫자형 표현 ☞ 수치 코드, 컴퓨터 수 체계, 기본자료형(숫자형) 참조
3. 자료(데이터)의 분류/구분 : (형태적 관점)
ㅇ 정형 데이터 (Structured Data) : (고정된 구조 있음)
- 미리 정의된 구조를 갖고 표 형태로 저장,관리되는 데이터
. 고정된 스키마를 가지며, 행과 열 구조로 명확히 조직된 데이터
. 데이터 타입, 길이, 제약조건 등이 사전에 정의됨
- 특징
. 표(table) 형태로 저장됨
. 검색,정렬,집계가 용이함
. SQL과 같은 정형 질의 언어로 처리 가능
. 일관성과 무결성 관리가 쉬움
- 例) 관계형 데이터베이스, 스프레드시트, CSV 등
. CSV(Comma Separated Values) : 데이터베이스,스프레드시트 데이터를 위한 저장 형식의 하나
ㅇ 비정형 데이터 (Unstructured Data) : (고정된 구조 없음)
- 데이터의 형식, 길이, 구조가 사전에 정의되지 않음
- 특징
. 지속 생성 데이터 중 가장 큰 비중을 차지
. 데이터 생성 시점의 다양한 사회적,문화적,공간적 현상들을 반영
. 인간에게는 이해 가능, 기계에게는 어려움 초래
. 따라서, 정형 또는 반정형 데이터로 변환하는 전처리 필요
- 例) 텍스트, 이미지, 음성, 영상 등
ㅇ 반정형 데이터 (Semi-structured Data) : (구조는 있으나 고정 스키마는 아님)
- 데이터의 형식과 구조가 변경 가능하며, 그 구조 정보를 데이터와 함께 제공
- 특징
. 태그, 키–값(key–value), 계층 구조 등으로 표현됨
. 정형 데이터로 변환 용이
- 例) JSON, XML, HTML, RDF 등