1. 주성분 분석 (Principal Component Analysis)
ㅇ 많은 수의 변량을 적은 수의 변량으로 축약시켜 분석하는 방법
- 다 변량 자료에서, 분포된 여러 데이터들의 주 성분을 찾는 방법
- 데이터의 개성이 돋보이게 하여 새로운 시각으로 관찰이 가능함
ㅇ 주성분 (Principal Component) 이란?
- 주성분 방향은, 데이터들의 분산(흩어진 정도)이 가장 큰 방향 벡터를 의미
. 2차원 데이터들인 경우 => 2개의 방향 벡터
. 3차원 데이터들인 경우 => 3개의 방향 벡터
- 주성분의 분산 크기는, 정보가 많은 정도를 나타냄
. 주성분의 분산이 큰 것부터, 제1,제2,제3,... 주성분이라고 함
- 주성분의 계수 구하기는, 최적화 문제(분산 최대화)의 해를 구하는 것
2. 주성분 분석 특징/목적
ㅇ 변수의 수를 줄이려는 데이터 축소(data reduction) 기법의 일종
- 관측 가능한 변량들로부터, 관측 가능하지 않은 (미지의) 공통 요인들을 추출함으로써,
데이터의 복잡성을 줄이려는 방법
ㅇ 데이터 구조의 변환
- 데이터들 간에 높은 상관관계가 있을때, 이러한 상관관계를 제거하여, 분석의 용이성 증대
ㅇ 데이터 내 잠재적 특성 파악
ㅇ 데이터들 간의 관계를 공간적/시각적으로 표현
ㅇ 독립변수와 종속변수 간의 구분이 없이, 단지 변수들 간의 상호의존성을 찾으려고 함
3. 주성분 분석 방법의 핵심
ㅇ 변량들 간에 어떤 관련성이 존재하리라는 것을 알고, 이러한 관련성이,
- 모든 변량들이 지닌 어떤 미지의 공통 요인(성분)들을 공유한 결과라고 봄
ㅇ 따라서, 다 변량들의 선형결합으로 표현되는 몇개의 주성분들을 도출시켜 보는 것
- 이때, 새롭게 만들어지는 주성분/변량/변인(Variate)은 그 분산이 크도록 함