1. 판별 분석 (Discriminant Analysis)
ㅇ 관측값이 여러 집단(클래스) 중 어느 집단에 속하는지를 분류하기 위한 통계 분석 기법
- 머신러닝에서의 지도학습 상의 분류(Classification)와 유사
2. 판별 분석의 기본 개념
ㅇ 판별분석은 다음과 같은 문제를 해결함
- 특징(변수) X를 바탕으로, 한 관측값이,
. 어느 그룹 (질병 유·무, 고객 유형, 합격/불합격 등)에 속하는지 판단
- 즉,
. 독립변수 : 연속형 (수치형)
. 종속변수 : 범주형 (집단)
- 일 때 사용되는 대표적인 통계적 분류 기법
3. 판별분석의 적용을 위한 통계적 가정
ㅇ 독립성 : 관측값 간 상호독립
ㅇ 다변량 정규성 : 각 집단의 데이터가 정규분포를 따른다고 가정
ㅇ 공분산 동질성 : 집단 간 공분산 행렬이 동일해야 함 (특히, LDA에서 중요)
4. 판별분석의 종류
ㅇ 선형 판별분석 (LDA, Linear Discriminant Analysis) : 가장 기본적인 판별분석
- 목적 : 집단 간 분산을 최대화하고, 집단 내 분산을 최소화하는 축을 찾음
. 차원 축소에도 사용됨 (PCA와 유사)
- 특징
. 각 집단의 공분산이 동일하다고 가정
. 판별 함수는 선형으로 구성
. 고전적인 Fisher의 판별분석이 여기에 해당
ㅇ 정준 판별분석 (CDA, Canonical Discriminant Analysis)
- 집단을 가장 잘 구분하는 여러 개의 정준변수(축)를 찾는 분석.
. PCA가, 데이터를 잘 "요약"하는 방향을 찾는다면,
. CDA는, 집단을 가장 잘 구분하는 방향을 찾음
ㅇ 이차 판별문석 (QDA, Quadratic Discriminant Analysis)
- 각 집단의 공분산이 다를 수 있다고 가정
- 특징
. 판별 함수는 이차식
. 데이터가 선형 분리되지 않을 때 사용
5. 판별 함수 (Discriminant Function)
ㅇ LDA에서 판별함수는 다음과 같은 선형 형태를 갖음
- {#D_k(\mathbf{x}) = \mathbf{w}_k^\top \mathbf{x} + c_k#}
. {#D_k#} : k번째 집단의 판별 점수
. {#\mathbf{w}_k#} : 판별 계수
. {#c_k#} : 상수항
- 관측값은 여러 집단 중 판별 점수 {#D_k#}가 가장 큰 집단에 속하는 것으로 분류됨