군집화

Clustering 군집화	(2026-02-07)
클러스터링

▷ Top ▷ 정보기술(IT) ▷ 인공지능 ▷ 기계학습 ▷ 분류, 군집화

1. 군집화 (Clustering)

  ㅇ 주어진 데이터들을 비슷한 특성별 그룹으로 나누며(묶어가며), 큰 단위로 만들어 감
     - 구조적이지 않은 대용량의 데이터를 효과적으로 분할시켜, 탐색적 분석에 도움을 줌

  ㅇ 비지도 학습(군집화,차원축소 등)의 한 종류 임 
     - 사전에 그룹(레이블)을 정의 않고, 데이터들을 클러스터로 묶어가는 것임
        . 즉, 주어진 데이터들을 비슷한 특성별 그룹으로 나누며(묶어가며), 큰 단위로 구조화시킴

  ㅇ 핵심은, 적절한 유사도 산출 기준 임

  ※ [비교] ☞ 분류 군집화 비교 참조
     - 분류 : "정답 기반 판정" (지도 학습), 군집화 : "숨은 구조 발견" (비지도 학습)


2. 군집화의 거리 척도 정의

  ㅇ 데이터 간의 `유사도 또는 차이`를 측정하는 방법을 정의해야 함
     - [참고] ☞ 유사성/상관성(Correlation), 유사도(Similarity), 차이(Dissimilarity) 참조
        . 例) 유클리드 거리, 코사인 유사도, 맨해튼 거리 등


3. 군집화의 방법(알고리즘) 분류

  ※ 군집화 알고리즘
     - 데이터세트를, 서로 교차하지 않는 여러 범주의 클러스터로, 분할시키는 알고리즘
        . 통상, 유사한 거리를 가진 샘플들을, k개 그룹으로 묶기 위한, 방법론을 결정해야 함
     - 알고리즘 선택  :  例) K - 평균, DBSCAN, 계층적 군집화 등

  ㅇ 중심 기반 군집화 (prototype-based) 
     - 각 클러스터 마다 중심(프로토타입)을 정의하고, 
     - 데이터를 각 중심에 가까운 클러스터로 할당
     - 例) K-평균 군집화 등

  ㅇ 계층적 군집화 (hierarchical)
     - 데이터를 트리 형태로 군집화하며, 상위 또는 하위 계층으로 그룹을 형성
     - 例) 연결 방법(연결거리 기준), 분할 방법 등

  ㅇ 밀도 기반 군집화 (density-based)
     - 데이터 밀집 영역을 클러스터로 정의하고, 예외/희소 데이터를 클러스터에서 제외시킴
     - 例) DBSCAN, OPTICS 등


4. 군집화의 대표적인 기법

  ㅇ k 평균 군집화 (k-means clustering)
     - 주어진 데이터셋을 미리 정의된 k개의 클러스터로 나눔
        . 각 클러스터의 중심(centroid)을 반복적으로 계산하며, 최적화시킴

  ㅇ 평균이동 군집화 (mean shift clustering)
     - 데이터의 밀도가 높은 방향으로 중심을 이동하며 클러스터를 형성시킴
     - 클러스터의 수를 사전에 설정하지 않아도 되는 장점 있음

  ㅇ DBSCAN (Density-Based Spatial Clustering of Applications with Noise)
     - 밀도 기반 접근으로, 밀집된 데이터 포인트를 클러스터로 식별하고 노이즈 데이터를 구분

  ㅇ 계층적 군집화 (Hierarchical Clustering)
        . 데이터 포인트 간의 유사성을 기반으로 클러스터를 단계적으로 결합하거나 분할

▷ 분류, 군집화

1. 분류 2. 이진 분류 3. 베이지안 분류 4. 군집화

용어해설 종합 (단일 페이지 형태)

"본 웹사이트 내 모든 저작물은 원출처를 밝히는 한 자유롭게 사용(상업화포함) 가능합니다"

[정보통신기술용어해설]

Clustering 군집화

클러스터링