1. 카이제곱 검정 (χ² 검정)
ㅇ 대표적인 비모수 검정 방법
- 원시 데이터가 없어도 집계된 통계 분할표(빈도표) 만으로도 검정이 가능
ㅇ 적용 범위가 넓고, 다양한 응용 기법이 존재
- 범주형 변수들 간에, 이들이 독립적 또는 종속적인지를 판단하기 위한 용도로 사용하거나,
. 例) 학력 수준과 선호 주거 양식 간의 관계 등
- 모집단 분산이 특정 값과 같은지 여부를 검정하는 등
2. 카이제곱 검정의 주요 용도 : (독립성 검정, 적합도 검정)
ㅇ 독립성 검정
- 2 이상의 범주형 변수 간에 상호 독립적인지 여부를 검정 ☞ 범주형자료 참조
. 例) 성별과 혈액형 간의 관계, 정치 성향(보수/진보)과 뉴스 채널 선호도 간의 관계 등
* (가설의 설정)
. 귀무가설 : "두 변수는 서로 독립이다"
.. 변량(항목,범주) 간에 관계가 `독립적` 이라고 가정함
. 대립가설 : "두 변수는 독립이 아니다 (즉, 관련성이 있다)"
.. 변량(항목,범주) 간에 관계가 `의존적` 이라고 가정함
ㅇ 적합도 검정
- 관측된 분포가 특정한 이론적 분포(균등 분포, 정규 분포 등)와 일치하는지 여부를 검정
. 주로, 기대 빈도와 실제 빈도를 비교하여, 통계적 유의성을 판단
3. 독립성 검정 시 검정 통계량
ㅇ 카이제곱 검정 통계량 또는 피어슨 통계량 (χ²)
[# χ^2 = \sum^k_{i=1} \frac{(o_i - e_i)^2}{e_i} #]
- k : 범주의 수
- k - 1 : 자유도
. 자유도는, 일반적으로 (행의수 - 1) x (열의 수)로 계산됨 (통계 분할표인 경우)
- o : 범주 i의 실제 관측 도수 치 (관측 빈도, 실제 빈도)
- e : 귀무가설이 참일 때 기대되는 범주 i의 이론적 빈도 (기대 빈도)
ㅇ 위 통계량은, 표본 통계량으로서, 그 분포는 카이제곱 분포(χ² 분포) 를 따름
- 어떤 속성,범주에 따라 분류된 변수들이,
- 서로 관련이 있는지 여부(독립성/의존성 유무)를 주로 판단하기 위한 통계량
4. [참고] 모집단 분산에 대한 검정 방법 비교
※ 모집단 분산을 비교, 추정하기 위한 분산 검정 방법들을 다음과 같이 분류 가능
- 이는 모집단 분산이 어떤 값인지 또는 집단 간 분산의 동일 여부를 검정시 사용
ㅇ 단일 모집단의 분산 검정 => χ²분포
- 모집단 분산이 특정 값과 같은지 여부를 검정 : χ²검정
- 가설 설정 例)
. 귀무가설 : "모집단의 분산은 {#σ^2_0#}와 같다"
. 대립가설 H₁: "모집단의 분산은 {#σ^2_0#}와 다르다 (또는 크다, 작다 등 방향성 가능)"
- 검정 통계량 : [# χ^2 = \frac{(n-1)s^2}{σ^2_0} #]
. {#s^2#} : 표본 분산
. {#σ^2_0#} : 검정 대상이 되는 분산 값
. n : 표본 크기
. n - 1 : 자유도
. 이 통계량은 χ²분포를 따름
ㅇ 두 모집단 분산 비교 검정 => F 분포
- 두 집단의 분산 비율이 같은지 비교 : F 검정
- 가설 설정 예
. 귀무가설 : "두 모집단의 분산은 동일하다 ({#σ_1^2 = σ_2^2#})"
. 대립가설 : "두 모집단의 분산은 다르다 (또는 한쪽이 더 크다)"
- 검정 통계량 : [# F = s^2_1/s^2_2 #]
. {#s^2_1,s^2_2#} : 두 집단의 표본 분산 (보통 {#s^2_1/s^2_2#}로 설정)
. {#n_1-1,n_2-1#} : 자유도
. 이 통계량은 F 분포를 따름
ㅇ k개 이상 집단 간 분산 비교 => F 분포 (등분산성 전제 필요)
- 3 이상의 집단이 동일한 평균을 가지는지 검정 : 분산분석 (ANOVA)
. 일원 분산분석 (One-way ANOVA) 등
- 검정 방법 : 집단 간 분산 / 집단 내 분산 비율을 F 분포를 통해 검정함
ㅇ 등분산성 검정 (분산의 동질성 검정) => χ²분포 또는 F 분포 (등분산성 판단 용도)
- 여러 집단 간에 분산이 같다고 볼 수 있는지 검정
. Levene 검정 : 평균 또는 중앙값 기준으로 분산 동질성 검정 (비모수적, 강건)
. Bartlett 검정 : 정규성 가정 하에서 사용 (민감함)
. Brown–Forsythe 검정 : Levene 검정의 변형으로 중앙값 기준