자료 분류, 자료 종류, 데이터 분류

(2026-01-19)

정형 데이터


1. 자료(데이터)의 분류/구분

  ※ 수집된/제시된 자료가 어떤 유형인지에 따라, 그 분석/저장/처리 등 방법에 큰 차이를 보임
     - (통계적 관점)  범주형 데이터 (명목, 서열), 수치형 데이터 (계수치, 계량치 등) 
        . "값이 무엇을 의미하는가?"에 초점
     - (형태적 관점)  정형 데이터, 비정형 데이터, 반정형 데이터
        . "데이터가 어떤 구조로 저장,표현되는가?"에 초점


2. 자료(데이터)의 분류/구분  :  (통계적 관점)

  ㅇ (범주형)  질적 자료 (Qualitative Data), 범주 자료 (Categorical Data)
     * 색깔,지역,직업,설문결과,사회계급,학력 등 `범주화/식별성 및 서열 정도 만` 가능

     - 범주형 구분                                                           ☞ 통계 척도 참조
        . 명목 자료 (Nomial Data)
           .. 어떤 속성을 분류하기 위해 수치 부여 (例, 남 1,여 0,혈액형 등)
        . 서열 자료 (Ordinal Data)
           .. 상대적인 크기 비교 (例, 사회계급,선호도,만족도,학력 등)

     - 범주형 특징
        . 사칙연산 의미 없음

     - [참고]
        . 자료의 식별  ☞ 개체, 식별 참조
        . 자료의 코드화  ☞ 코드, 상품코드(바코드,QR코드,RFID 등) 참조
        . 자료의 컴퓨터 표현  ☞ 알파뉴메릭 코드(ASCII,유니코드 등), 기본자료형 등 참조

  ㅇ (수치형)  양적 자료 (Quantitative Data), 수치 자료 (Numerical Data)
     * 나이,소득,매출액 등 수량화 가능     (수량적 자료)

     - 수치형 구분  (수치 부여 유형에 따라 구분)                             ☞ 통계 척도 참조
        . 등간 자료, 구간 자료 (Interval Data) 
           .. 간격이 균등한 수치 부여 (例, 온도,IQ 등)
        . 비율 자료 (Ratio Data)
           .. 균등 간격에 절대 영점 있음 (例, 나이,소득,무게,방문자수 등)
           .. 따라서, 비율 표현 및 비교가 자연스러움

     - 수치형 구분  (셀 수 있음 여부에 따라 구분)
        . 계수치 (이산적, Discrete)
           .. 셀 수 있는 정수 값 (例, 생산개수,불량수,나이 등)
        . 계량치 (연속적, Continuous)
           .. 연속 값 (例, 길이,무게,인장강도,온도,시간 등)

     - 수치형 특징 
        . 사칙연산 가능

     - [참고]
        . 자료의 수치화  ☞ 셈법, 수 표현(진법체계,고정소수점,부동소수점 등) 참조
        . 컴퓨터 숫자형 표현  ☞ 수치 코드, 컴퓨터 수 체계, 기본자료형(숫자형) 참조


3. 자료(데이터)의 분류/구분  :  (형태적 관점)

  ㅇ 정형 데이터 (Structured Data)  :  (고정된 구조 있음)
     - 미리 정의된 구조를 갖고 표 형태로 저장,관리되는 데이터 
        . 고정된 스키마를 가지며, 행과 열 구조로 명확히 조직된 데이터
        . 데이터 타입, 길이, 제약조건 등이 사전에 정의됨
     - 특징
        . 표(table) 형태로 저장됨
        . 검색,정렬,집계가 용이함
        . SQL과 같은 정형 질의 언어로 처리 가능
        . 일관성과 무결성 관리가 쉬움
     - 例) 관계형 데이터베이스, 스프레드시트, CSV 등
        . CSV(Comma Separated Values) : 데이터베이스,스프레드시트 데이터를 위한 저장 형식의 하나

  ㅇ 비정형 데이터 (Unstructured Data)  :  (고정된 구조 없음)
     - 데이터의 형식, 길이, 구조가 사전에 정의되지 않음
     - 특징
        . 지속 생성 데이터 중 가장 큰 비중을 차지
        . 데이터 생성 시점의 다양한 사회적,문화적,공간적 현상들을 반영
        . 인간에게는 이해 가능, 기계에게는 어려움 초래
        . 따라서, 정형 또는 반정형 데이터로 변환하는 전처리 필요
     - 例) 텍스트, 이미지, 음성, 영상 등 

  ㅇ 반정형 데이터 (Semi-structured Data)  :  (구조는 있으나 고정 스키마는 아님)
     - 데이터의 형식과 구조가 변경 가능하며, 그 구조 정보데이터와 함께 제공
     - 특징
        . 태그, 키–값(key–value), 계층 구조 등으로 표현됨
        . 정형 데이터로 변환 용이
     - 例) JSON, XML, HTML, RDF 등

자료(데이터)
1. 자료   2. 자료의 분류   3. 질적 자료   4. 양적 자료   5. 자료의 척도   6. 자료의 표현   7. 독립변수, 종속변수   8. 시계열 데이터  
용어해설 종합 (단일 페이지 형태)

"본 웹사이트 내 모든 저작물은 원출처를 밝히는 한 자유롭게 사용(상업화포함) 가능합니다"
     [정보통신기술용어해설]