1. 군집화 (Clustering)
ㅇ 주어진 데이터들을 비슷한 특성별 그룹으로 나누며(묶어가며), 큰 단위로 만들어 감
ㅇ 비지도 학습(군집화,차원축소 등)의 한 종류 임
- 사전에 그룹(레이블)을 정의 않고, 데이터들을 클러스터로 묶어가는 것임
. 즉, 주어진 데이터들을 비슷한 특성별 그룹으로 나누며(묶어가며), 큰 단위로 구조화시킴
* (핵심은, 적절한 유사도 산출 기준 선택)
※ [비교] ☞ 분류 군집화 비교 참조
2. 군집화 거리 척도 정의
ㅇ 데이터 간의 `유사도 또는 차이`를 측정하는 방법을 정의해야 함
- [참고] ☞ 유사성/상관성(Correlation), 유사도(Similarity), 차이(Dissimilarity) 참조
. 例) 유클리드 거리, 코사인 유사도, 맨해튼 거리 등
3. 군집화 방법의 분류
※ 군집화 알고리즘
- 데이터세트를, 서로 교차하지 않는 여러 범주의 클러스터로, 분할시키는 알고리즘
. 통상, 유사한 거리를 가진 샘플들을, k개 그룹으로 묶기 위한, 방법론을 결정해야 함
- 알고리즘 선택 : 例) K - 평균, DBSCAN, 계층적 군집화 등
ㅇ 중심 기반 군집화 (prototype-based)
- 각 클러스터 마다 중심(프로토타입)을 정의하고,
- 데이터를 각 중심에 가까운 클러스터로 할당
- 例) K-평균 군집화 등
ㅇ 계층적 군집화 (hierarchical)
- 데이터를 트리 형태로 군집화하며, 상위 또는 하위 계층으로 그룹을 형성
- 例) 연결 방법(연결거리 기준), 분할 방법 등
ㅇ 밀도 기반 군집화 (density-based)
- 데이터 밀집 영역을 클러스터로 정의하고, 예외/희소 데이터를 클러스터에서 제외시킴
- 例) DBSCAN, OPTICS 등
4. 대표적인 군집화 기법
ㅇ k 평균 군집화 (k-means clustering)
- 주어진 데이터셋을 미리 정의된 k개의 클러스터로 나눔
. 각 클러스터의 중심(centroid)을 반복적으로 계산하며, 최적화시킴
ㅇ 평균이동 군집화 (mean shift clustering)
- 데이터의 밀도가 높은 방향으로 중심을 이동하며 클러스터를 형성시킴
- 클러스터의 수를 사전에 설정하지 않아도 되는 장점 있음
ㅇ DBSCAN (Density-Based Spatial Clustering of Applications with Noise)
- 밀도 기반 접근으로, 밀집된 데이터 포인트를 클러스터로 식별하고 노이즈 데이터를 구분
ㅇ 계층적 군집화 (Hierarchical Clustering)
. 데이터 포인트 간의 유사성을 기반으로 클러스터를 단계적으로 결합하거나 분할