Clustering   군집화

(2026-01-21)

클러스터링


1. 군집화 (Clustering)

  ㅇ 주어진 데이터들을 비슷한 특성별 그룹으로 나누며(묶어가며), 큰 단위로 만들어 감

  ㅇ 비지도 학습(군집화,차원축소 등)의 한 종류 임 
     - 사전에 그룹(레이블)을 정의 않고, 데이터들을 클러스터로 묶어가는 것임
        . 즉, 주어진 데이터들을 비슷한 특성별 그룹으로 나누며(묶어가며), 큰 단위로 구조화시킴
     * (핵심은, 적절한 유사도 산출 기준 선택)

  ※ [비교] ☞ 분류 군집화 비교 참조


2. 군집화 거리 척도 정의데이터 간의 `유사도 또는 차이`를 측정하는 방법을 정의해야 함
     - [참고] ☞ 유사성/상관성(Correlation), 유사도(Similarity), 차이(Dissimilarity) 참조
        . 例) 유클리드 거리, 코사인 유사도, 맨해튼 거리3. 군집화 방법의 분류

  ※ 군집화 알고리즘
     - 데이터세트를, 서로 교차하지 않는 여러 범주의 클러스터로, 분할시키는 알고리즘
        . 통상, 유사한 거리를 가진 샘플들을, k개 그룹으로 묶기 위한, 방법론을 결정해야 함
     - 알고리즘 선택  :  例) K - 평균, DBSCAN, 계층적 군집화 등

  ㅇ 중심 기반 군집화 (prototype-based) 
     - 각 클러스터 마다 중심(프로토타입)을 정의하고, 
     - 데이터를 각 중심에 가까운 클러스터로 할당
     - 例) K-평균 군집화 등

  ㅇ 계층적 군집화 (hierarchical)
     - 데이터트리 형태로 군집화하며, 상위 또는 하위 계층으로 그룹을 형성
     - 例) 연결 방법(연결거리 기준), 분할 방법 등

  ㅇ 밀도 기반 군집화 (density-based)
     - 데이터 밀집 영역을 클러스터로 정의하고, 예외/희소 데이터클러스터에서 제외시킴
     - 例) DBSCAN, OPTICS 등


4. 대표적인 군집화 기법

  ㅇ k 평균 군집화 (k-means clustering)
     - 주어진 데이터셋을 미리 정의된 k개의 클러스터로 나눔
        . 각 클러스터의 중심(centroid)을 반복적으로 계산하며, 최적화시킴

  ㅇ 평균이동 군집화 (mean shift clustering)
     - 데이터밀도가 높은 방향으로 중심을 이동하며 클러스터를 형성시킴
     - 클러스터의 수를 사전에 설정하지 않아도 되는 장점 있음

  ㅇ DBSCAN (Density-Based Spatial Clustering of Applications with Noise)
     - 밀도 기반 접근으로, 밀집된 데이터 포인트클러스터로 식별하고 노이즈 데이터를 구분

  ㅇ 계층적 군집화 (Hierarchical Clustering)
        . 데이터 포인트 간의 유사성을 기반으로 클러스터를 단계적으로 결합하거나 분할

분류, 군집화
1. 분류   2. 이진 분류   3. 베이지안 분류   4. 군집화  
용어해설 종합 (단일 페이지 형태)

"본 웹사이트 내 모든 저작물은 원출처를 밝히는 한 자유롭게 사용(상업화포함) 가능합니다"
     [정보통신기술용어해설]



Notice: Undefined index: HTTP_REFERER in C:\htdocs\cjb\stat_utils.php on line 17