Regression Analysis   회귀 분석

(2022-02-05)

Regression, 회귀, Regression Equation, 회귀 식, 회귀 계수


1. 회귀 분석 (Regression Analysis)변수들 사이에 확률함수 관계를 탐색하는 것
     - 특히, 종속변수독립변수 간의 관계에 대해,
     - 수학적(확률적) 모형을 구축,평가,사용 가능케 함

  ※ [용어 유래]  회귀(regression)이라는 용어는,
     - 영국 우생학자 칼턴(F. Galton,1822~1891)이,  "Family Likeness in Stature (1886)"
     - 아들의 키가 아버지의 키에서 받은 영향(본래 모습으로 되돌아가는 경향)을 언급하며 처음 사용

  ※ [지향점]  데이터 집단이 갖는 추세 모형 추구
     - 비록 각 점들을 정확히 통과하지는 않지만, 데이터 집단의 경향을 보이는 하나의 곡선을 찾음


2. 회귀분석의 과정

  ㅇ 일련의 변수들 간에 확률적 관계를 갖을 때,
     - 주로, 예측변수/독립변수반응변수/종속변수 간에 확률적 관계를 갖도록 취해짐

  ㅇ 이 관련성을, 랜덤변수가설함수 모형에 입각하여,
     - 딱 정해지는 수학함수 관계식이 아닌, 
     - 랜덤하게 정해지는 확률적 관계식에 의해,
     - 맞춤/곡선적합/근사를 도모함

  ㅇ 이를통해 분석 및 검정하는 것


3. 회귀분석의 용도변수들 간에 가설함수 관계(선형적 관계 등)의 탐색, 규명, 분석, 검정
     - 관심있는 변수의 최적값이 다른 변수가 어떤 값을 취할 때 얻어지는지를 찾음
     - 변수 간의 최선의 관계성, 관계의 강도 등을 분석

  ㅇ 1 이상의 여러 변수들의 변화로부터 다른 한 변수의 변화를 예측
     - 독립변수(회귀변수/설명변수/예측변수)에 따른 종속변수(반응변수)의 변화를 예측
     - 과거의 추세를 기초로하여 미래를 예측 
     - 다만, 구조적인 변화가 있는 경우 예측에 한계를 보임


4. 회귀분석의 구분확률변수 간에 관계성에 따라
     - 선형적   : 선형 회귀분석최소자승법 참조
        .. 확률변수 간에 선형성 결합 정도의 척도 => 상관계수 참조
        .. 만일, 상관계수가 높으면 한 변수 정보로부터 다른 변수예측하는데
           높은 신뢰도를 기대할 수 있음
     - 비선형적 : 비선형 회귀분석

  ㅇ 회귀변수(독립변수)의 수,관계에 따라
     - 단순 회귀분석 (이 변량 회귀, bivariate regression, simple regression)
        . 1개 회귀변수(독립변수)와 1개 반응변수(종속변수) 간의 선형적 관계
           .. 일반식)  {# y = a_0 + a_1x_1 + ε#}

     - 다중 회귀분석 (다 변량 회귀, multiple regression)
        . 다수 회귀변수(독립변수)와 1개 반응변수(종속변수) 간의 선형적 관계
           .. 일반식)  {# y = a_0 + a_1x_1 + a_2x_2 + a_3x_3 + \cdots + a_mx_m + ε#}

     - 곡선 회귀분석 (다항 회귀 모형, polynomial model)
        . 회귀변수(독립변수)가 1차가 아닌 2차 이상의 고차 함수적인 관계
           .. 일반식)  {# y = a_0 + a_1x + a_2x^2 + a_3x^3 + \cdots + a_mx^m + ε#}


5. 회귀분석에서 통계적 검정의 종류

  ㅇ 회귀 모형 자체에 대한 검정

  ㅇ 각 개별 변수유의성 검정

  ※ 회귀분석을 적절히 하기 위한 기본 (고전적) 가정들
     - 선형성 가정, 오차항의 정규성 가정, 독립변수가 서로 독립이라는 가정, 
       오차항이 일정하다는 등분산성 가정, 독립변수오차항이 상호독립이라는 외생성 가정,
       독립변수가 비 확률변수라는 가정6. 회귀분석의 주요 용어

  ㅇ 회귀 모형 (Regression Model)
     - 변수들 간의 관계를 나타내는 통계모형

  ㅇ 회귀 식 (Regression Equation) : Y = f() + ε
     - 변수들 간의 관계를 최적으로 나타내는 확률적 관계식

  ㅇ 회귀 선 (Regression Line)
     - 변수들간의 확률적 관계식을, 선형(1차)식으로 표현할 때, 기울기를 나타내는 선
        . (1차) 모 회귀선 : {# y_i = β_0 + β_1x_i + ε_i #}
        . (1차) 표본 회귀선 : {# \widehat{y_i} = b_0 + b_1x_i #}

  ㅇ 회귀 계수 (Regression Coefficient) = 회귀선의 기울기
     - 반응변수에 미치는 예측변수의 가중치
        . 예측변수가 한 단위 만큼 변화함에 따라, 반응변수에 미치는 영향력의 크기
        . 회귀식에 나타나는 미지의 계수(모수)
     * 결국, 이 회귀계수들을 추정하는(구하는) 일이 회귀분석인 셈

  ㅇ 결정 계수 (Determination Coefficient)
     - 회귀선의 적합성을 판단하는 척도
        . 상관계수로부터, 구해질 수 있음


7. 선형 회귀모형 例)

    
[# \begin{array}{ll} Y & = & f(X_1,X_2,\cdots,X_n) + \epsilon \\ & = & \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \cdots + \beta_n X_n + \epsilon \end{array} #]
ㅇ 항목 명칭 - f: 변수들간의 확률함수관계 - Y: 반응변수(종속변수), X: 예측변수(독립변수) - n: 예측변수 개수 - ε: 확률오차 - β: 회귀 모수 또는 회귀 계수 ㅇ 결국, 회귀계수 β가, 데이터들로부터 추정되어야하는 미지의 상수



"본 웹사이트 내 모든 저작물은 원출처를 밝히는 한 자유롭게 사용(상업화포함) 가능합니다"