1. Cluster, Clustering
ㅇ [ 일반분야 ] 클러스터
- 원래 포도송이를 말하며 집단이나 군집을 의미
ㅇ [ 인공지능/패턴인식/기계학습 ] 군집화
- 주어진 데이터들을 비슷한 특성별 그룹으로 나누며(묶어가며), 큰 단위로 만들어 감
ㅇ [ 전산분야 ] 디스크 클러스터
- 하드디스크상의 섹터를 여러개 모아 일정 단위로 묶은 것
ㅇ [ 전산분야 ] 클러스터링
- 독립적으로 수행가능한 기계(컴퓨터 및 CPU)들을 네트워크를 통해 연결하는 등에 의해,
- 비교적 적은 비용으로 거대한 규모로 확장시키는 기술
ㅇ [ 전산/전송분야 ] 데이터 클러스터
- 몇 개의 연속된 데이터 블록을 묶어 처리 또는 전송하는 단위
ㅇ [ 이동통신 셀룰러시스템 ] 셀 클러스터
- 다른 주파수 채널 그룹을 사용하는 일정 범위의 셀들의 그룹 ☞ 셀룰러시스템용량 참조
2. [ 인공지능/패턴인식/기계학습 ] 군집화 (Clustering)
ㅇ 주어진 데이터들을 비슷한 특성별 그룹으로 나누며(묶어가며), 큰 단위로 구조화시킴
ㅇ 비지도 학습(군집화,차원축소 등)의 한 종류 임
- 사전에 그룹(레이블)을 정의 않고, 데이터들을 클러스터로 묶어가는 것임
ㅇ 군집화 요건
- 거리 척도 정의
. 데이터 간의 `유사도 또는 차이`를 측정하는 방법을 정의해야 함
. [참고] ☞ 유사성/상관성(Correlation), 유사도(Similarity), 차이(Dissimilarity) 참조
. 例) 유클리드 거리, 코사인 유사도, 맨해튼 거리 등
- 알고리즘 선택
. 유사한 거리를 가진 샘플들을 그룹으로 묶는 데 사용할 방법론을 결정해야 함
. 例) K-평균, DBSCAN, 계층적 군집화 등
ㅇ 군집화 방법의 분류
- 중심 기반 군집화 (prototype-based)
. 각 클러스터 마다 중심(프로토타입)으로 정의하고,
. 데이터를 각 중심에 가까운 클러스터로 할당
. 例) K-평균 군집화 등
- 계층적 군집화 (hierarchical)
. 데이터를 트리 형태로 군집화하며, 상위 또는 하위 계층으로 그룹을 형성
. 例) 연결 방법(연결거리 기준), 분할 방법 등
- 밀도 기반 군집화 (density-based)
. 데이터 밀집 영역을 클러스터로 정의하고, 예외/희소 데이터를 클러스터에서 제외시킴
. 例) DBSCAN, OPTICS 등
ㅇ 대표적인 군집화 기법
- K-평균 군집화 (K-means clustering)
. 주어진 데이터셋을 미리 정의된 K개의 클러스터로 나눔
. 각 클러스터의 중심(centroid)을 반복적으로 계산하며 최적화시킴
- 평균이동 군집화 (mean shift clustering)
. 데이터의 밀도가 높은 방향으로 중심을 이동하며 클러스터를 형성시킴
. 클러스터의 수를 사전에 설정하지 않아도 되는 장점 있음
- DBSCAN (Density-Based Spatial Clustering of Applications with Noise)
. 밀도 기반 접근으로, 밀집된 데이터 포인트를 클러스터로 식별하고 노이즈 데이터를 구분
- 계층적 군집화 (Hierarchical Clustering)
. 데이터 포인트 간의 유사성을 기반으로 클러스터를 단계적으로 결합하거나 분할
※ [참고] 분류와 요약 ☞ 분류 군집화 비교 참조