1. 회귀 분석 (Regression Analysis) 이란?
ㅇ 1 이상의 설명변수(독립변수)를 이용, 반응변수(종속변수)를 설명,예측하는 통계적 분석 방법
ㅇ 목적 : 변수 간 관계 파악, 미래값 예측, 변수의 영향력 정량화, 가설검정 및 의사결정 지원
2. 회귀 모형의 구성
ㅇ 회귀 모형 (Regression Model)
- 변수들 간의 관계를 확률적으로 표현한 모형 : Y = f(x) + ε
. Y : 반응변수(종속변수), X : 설명변수/예측변수(독립변수), ε : 오차항
ㅇ 회귀 식 (Regression Equation)
- 회귀 모형을 수식 형태로 나타낸 식
ㅇ 회귀 선 (Regression Line)
- 회귀 식을 직선으로 표현한 것
. (1차) 모 회귀선 : {# y_i = β_0 + β_1x_i + ε_i #} (모집단의 이론적 직선)
. (1차) 표본 회귀선 : {# \widehat{y_i} = b_0 + b_1x_i #} (표본으로부터 추정된 회귀선)
ㅇ 회귀 계수 (Regression Coefficient) = 회귀선의 기울기
- 회귀 식에 나타나는 미지의 계수(모수)
. 반응변수(종속변수)에 미치는 예측변수(독립변수)의 가중치
. 예측변수가 한 단위 만큼 변화함에 따라, 반응변수에 미치는 영향력의 크기
* 결국, 주어진 데이터에 가장 잘 맞도록, 이 회귀계수들을 추정하는(구하는) 것이,
. 회귀분석의 목적인 셈
3. 회귀 모형의 추정
ㅇ 최소제곱법 (Least Square Method)
ㅇ 정규 방정식 (Normal Equation)
- 최소 제곱법을 사용하여, 최적의 회귀 계수를 구할 때, 도출되는 선형방정식 계
. 다항 회귀를 통한 데이터 모델링시,
. 데이터,모델 간의 오차 제곱합을 최소화하도록,
. 미지수 개수 만큼의 정규 방정식을 세우게 됨
4. 회귀 모형의 평가
ㅇ 결정 계수 (Determination Coefficient)
- 회귀 선의 적합성을 판단하는 척도
. 상관계수로부터, 구해질 수 있음
5. 회귀 모형의 종류
ㅇ 선형 회귀 모형 : Y = β0 + β1X + ε
ㅇ 로지스틱 회귀 (Logistic Regression) 모형
- 어떤 사건이 발생할 확률을 예측하는 데 사용되는 통계 기법
- 특히, 예/아니오와 같이 2가지 범주로 나눌 수 있는 이진 분류 문제에 주로 활용하는 선형 모델
. 입력 데이터를 바탕으로 특정 클래스에 속할 확률을 예측
. 그 예측된 확률을 기준으로 분류를 수행
- 기계학습 과정에서, 분류에 해당하는 손실 함수를 최소화하면서, 모델을 최적화함