사용자 도구

사이트 도구


회귀_분석

차이

문서의 선택한 두 판 사이의 차이를 보여줍니다.

차이 보기로 링크

양쪽 이전 판이전 판
다음 판
이전 판
회귀_분석 [2026/04/13 14:32] – 회귀 분석 sync flyingtext회귀_분석 [2026/04/13 14:34] (현재) – 회귀 분석 sync flyingtext
줄 142: 줄 142:
 === 회귀 계수의 추정 === === 회귀 계수의 추정 ===
  
-표본 데이터를 바탕으로 모수를 정하는 방과 그 통계적 성질을 한다.+회귀 분석의 일차적인 목적은 표본 데이터를 통해 모집단의 특성을 나타내는 [[모수]](parameter)를 객관적으로 추정하는 것이다. 단순 선형 회귀 모델에서 추정하고자 하는 대상은 회귀 직선의 절편인 $ _0 $와 기울기인 $ _1 $이다. 실제 연구 상황에서는 모집단 전체를 전수 조사하는 것이 불가능하므로, 수집된 표본 데이터를 바탕으로 한 [[통계적 추정]](statistical estimation) 과정을 거치게 된다. 이때 관측된 데이터에 가장 적합한 회귀 계수를 찾아내기 위해 가장 널리 사용되는 방법론이 [[최소제곱법]](Ordinary Least Squares, OLS)이다. 
 + 
 +최소제곱법은 관측값 $ Y_i $와 델에 의해 예측된 값 $ _i $ 사이의 차이인 [[잔차]](residual)의 제곱합을 최소화하는 계수를 선택하는 방식이다. 표본의 크기가 $ n $일 때, 잔차 제곱합(Residual Sum of Squares, RSS)은 다음과 같은 목적 함수 $ S $로 의된다. 
 + 
 +$$ S(\beta_0, \beta_1) = \sum_{i=1}^{n} (Y_i - \hat{Y}_i)^2 = \sum_{i=1}^{n} (Y_i - \beta_0 - \beta_1 X_i)^2 $$ 
 + 
 +이 함수 $ S $를 최소화하는 $ _0 $와 $ _1 $을 찾기 위해 각 모수에 대하여 [[편미분]](partial derivative)을 수행한다. 각 편미분 계수를 0으로 놓음으로써 도출되는 연립 정식을 정규 방정식(Normal Equations)이라 하며, 이를 풀면 다음과 같은 회귀 계수의 추정량(estimator)을 얻을 수 있다. 
 + 
 +$$ \hat{\beta}_1 = \frac{\sum_{i=1}^{n} (X_i - \bar{X})(Y_i - \bar{Y})}{\sum_{i=1}^{n} (X_i - \bar{X})^2} $$ $$ \hat{\beta}_0 = \bar{Y} - \hat{\beta}_1 \bar{X} $$ 
 + 
 +여기서 $ {X} $와 $ {Y} $는 각각 독립 변수와 종속 변수의 표본 평균을 의미한다. 추정된 기울기 $ _1 $은 독립 변수 $ X $가 한 단위 변화할 때 종속 변수 $ Y $가 평균적으로 얼마나 변화하는지를 나타내며, 절편 $ _0 $는 $ X $가 0일 때의 $ Y $의 기댓값을 의미한다. 
 + 
 +이렇게 도출된 최소제곱 추정량은 몇 가지 중요한 통계적 성질을 지닌다. 첫째, [[불편성]](unbiasedness)이다. 모델의 기본 가정이 충족될 때, 추정량의 기댓값은 실제 모집단의 모수와 일치다. 즉, $ E[_0] = _0 $ 및 $ E[_1] = _1 $이 성립한다. 이는 반복적인 표본 추출을 통해 계수를 추정할 경우, 그 평균적인 결과가 참값에 수렴함을 보장한다. 
 + 
 +둘째, [[가우스-마르코프 정리]](Gauss-Markov Theorem)에 의한 효율성이다. 오차항이 서로 독립이며 등분산성을 가진다는 가정하에, 최소제곱 추정량은 모든 선형 불편 추정량 중에서 분산이 가장 작은 [[최선 선형 불편 추정량]](Best Linear Unbiased Estimator, BLUE)이 된다. 분산이 작다는 것은 추정의 정밀도가 높음을 의미하며, 이는 통계적 추론의 신뢰성을 확보하는 핵심적 근거가 된다. 
 + 
 +마지막으로 추정량의 분산과 [[표준 오차]](standard error)에 관한 고찰이 필요하다. 추정된 회귀 계수의 불확실성을 측정하기 위해 오차항의 분산 $ ^2 $을 추정해야 하는데, 이는 잔차 제곱합을 자유도 $ n-2 $로 나눈 [[표본 분산]] $ ^2 $을 통해 계산된다. 회귀 계수의 표준 오차는 계수의 유의성을 검정하는 [[가설 검정]]과 [[신뢰 구간]](confidence interval) 산출의 기초 자료로 활용된다. 결과적으로 회귀 계수의 추정은 단순한 수치 계산을 넘어, 데이터 내재적 변동성을 고려하여 모수의 참값에 대한 최적의 통계적 판단을 내리는 과정이라 할 수 있다.
  
 === 적합도와 결정 계수 === === 적합도와 결정 계수 ===
  
-도출된 회귀이 실제 데이터를 얼마나 잘 설명하는지 측정하는 지표를 분석한다.+[[회귀 모델]]을 통해 [[회귀 계수]]를 추정한 후에는 해당 모델이 실제 데이터를 얼마나 정확하게 설명하고 있는지를 정량적으로 평가하는 과정이 필수적이다. 이를 [[적합도]](Goodness of Fit) 분석이라 하며, 모델에 의해 설명되는 변동이 전체 변동에서 차지하는 비중을 측정하여 모델의 유용성을 판단한다. 적합도를 평가하는 가장 대표적인 지표는 [[결정 계수]](Coefficient of Determination)이며, 이는 [[종속 변수]]의 전체 변동을 모델에 의한 변동과 오차에 의한 변동으로 분할하는 원리에 기초한다. 
 + 
 +[[관측값]] $ Y_i $의 전체 변동을 이해하기 위해 통계학에서는 총 제곱합(Total Sum of Squares, SST)의 개념을 사용한다. 총 제곱합은 개별 관측값이 [[산술 평균]]으로부터 떨어진 거리의 제곱 총합으로, 데이터가 가진 전체 [[분산]]의 크기를 나타낸다. [[최소제곱법]]에 의해 도출된 회귀선은 이 전체 변동을 두 가지 성으로 분해한다. 첫째는 회귀 제곱합(Regression Sum of Squares, SSR)으로, 평균으로부터 회귀선까지의 거리를 의미하며 모델의 [[독립 변수]]에 의해 설명되는 변동분이다. 둘째는 잔차 제곱합(Error Sum of Squares, SSE)으로, 회귀선으로부터 실제 관측값까지의 거리인 [[잔차]]의 제곱합이며 모델이 설명하지 못하는 무작위 오차의 영역이다. 이들의 관계는 다음과 같은 항등식으로 표현된다. 
 + 
 +$$ SST = SSR + SSE $$ 
 + 
 +$$ \sum_{i=1}^{n} (Y_i - \bar{Y})^2 = \sum_{i=1}^{n} (\hat{Y}_i - \bar{Y})^2 + \sum_{i=1}^{n} (Y_i - \hat{Y}_i)^2 $$ 
 + 
 +결정 계수 $ R^2 $은 총 제곱합에서 회귀 제곱합이 차지하는 비율로 정의된다. 이는 $ 0 $과 $ 1 $ 사이의 값을 가지며, $ 1 $에 가까울수록 회귀 모델의 설명력이 높음을 의미한다. 수식으로는 다음과 같이 나타낼 수 있다. 
 + 
 +$$ R^2 = \frac{SSR}{SST} = 1 - \frac{SSE}{SST} $$ 
 + 
 +단순 선형 회귀 분석에서 결정 계수는 독립 변수와 종속 변수 간의 [[상관계수]]를 제곱한 값과 동일한 수치적 특성을 갖는다. 그러나 결정 계수를 해석할 때는 주의가 필요하다. $ R^2 $은 모델에 포함된 독립 변수의 수가 늘어날수록, 해당 변수가 종속 변수와 논리적 인과 관계가 없더라도 수학적으로 반드시 증가하거나 최소한 유지되는 성질이 있다. 이러한 특성 때문에 변수가 과도하게 투입된 모델에서는 결정 계수가 실제보다 높게 나타나는 [[과적합]](Overfitting) 문제가 발생할 수 있다. 
 + 
 +이러한 한계를 보완하기 위해 도입된 지표가 [[수정된 결정 계수]](Adjusted R-squared)이다. 수정된 결정 계수는 각 제곱합을 해당 [[자유도]](Degrees of Freedom)로 나누어 표본 크기와 독립 변수의 개수를 동시에 고려한다. 이는 불필요한 독립 변수가 추가될 때 모델에 가해지는 벌점(Penalty) 역할을 수행하여, 모델의 간결성과 설명력을 동시에 평가할 수 있게 한다. 수정된 결정 계수 $ {R}^2 $은 다음과 같이 계산된다. 
 + 
 +$$ \bar{R}^2 = 1 - \left[ \frac{(1 - R^2)(n - 1)}{n - k - 1} \right] $$ 
 + 
 +여기서 $ n $은 표본의 크기이며, $ k $는 독립 변수의 개수이다. [[다중 회귀 분석]]에서는 모델 간의 비교를 위해 일반 결정 계수보다 수정된 결정 계수를 사용하는 것이 더욱 타당하다. 이 외에도 추정의 표준오차(Standard Error of the Estimate) 등을 병행하여 검토함으로써, 모델이 데이터의 실제 분포를 얼마나 정밀하게 모사하고 있는지 종합적으로 진단한다. 적합도 지표는 모델의 통계적 유의성을 보장하는 것은 아니며, 단지 데이터에 대한 설명력을 나타내는 척도이므로 [[추론 통계학]]적 검정 결과와 함께 해되어야 한다.
  
 ==== 다중 선형 회귀 분석 ==== ==== 다중 선형 회귀 분석 ====
  
-두 개 이상의 독립 변수가 종속 변수에 미치는 영향을 동시에 분석하는 확장된 모델을 다다.+[[다중 선형 회귀 분석]](Multiple Linear Regression Analysis)은 하나의 [[종속 변수]]와 두 개 이상의 [[독립 변수]]들 사이의 선형적 관련성을 분석하는 통계적 방법이다. 현실 세계의 복잡한 현상은 대개 단일 요인보다는 여러 요인의 복합적인 작용으로 결정되므로, [[단순 선형 회귀 분석]]을 확장하여 여러 독립 변수가 종속 변수에 미치는 영향을 동시에 파악하는 모델이 필요하다. 이 모델은 각 독립 변수가 종속 변수의 변동을 얼마나 설명하는지 정량화하며, 다른 변수들의 영향력이 통제된 상태에서 특정 변수가 갖는 고유한 기여도를 산출하는 데 목적이 있다. 
 + 
 +다중 선형 회귀 모델의 수학적 구조는 다음과 같이 정의된다. $ k $개의 독립 변수 $ X_1, X_2, , X_k $가 존재할 때, 종속 변수 $ Y $와의 관계는 다음과 같은 선형 방정식으로 표현된다. 
 + 
 +$$ Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_k X_k + \epsilon $$ 
 + 
 +여기서 $ _0 $는 절편(intercept)이며, $ _1, , _k $는 각 독립 변수에 대응하는 회귀 계수(regression coefficient)이다. $ $은 모델이 설명하지 못하는 [[오차항]](error term)을 의미한다. 이를 행렬(matrix) 형식으로 일반화하면 분석의 효율성을 높일 수 있다. $ n $개의 관측치에 대여 종속 변수 벡터를 $  $, 독립 변수 행렬을 $  $, 계수 벡터를 $  $, 오차 벡터를 $  $이라 하면 모델은 $  =  +  $으로 간결하게 표기된다. 
 + 
 +모델의 모수인 회귀 계수를 추정하기 위해 가장 널리 사용되는 방법은 [[최소제곱법]](Ordinary Least Squares, OLS)이다. 이는 실제 관측값과 모델에 의한 예측값의 차이인 [[잔차]](residual)의 제곱합을 최소화하는 계수를 찾는 과정이다. 행렬 연산을 통해 도출되는 회귀 계수의 추정량 $  $는 다음과 같은 정규 방정식(normal equation)의 해로 구해진다. 
 + 
 +$$ \hat{\boldsymbol{\beta}} = (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \mathbf{y} $$ 
 + 
 +이때 독립 변수들 사이에 완전한 선형 관계가 존재하지 않아야 하며, 행렬 $ ^T  $의 역행렬이 존재해야 한다는 조건이 충족되어야 한다. 만약 독립 변수 간에 강한 상관관계가 존재할 경우 [[다중 공선성]](multicollinearity) 문제가 발생하여 추정량의 분산이 커지고 모델의 신뢰성이 저하될 수 있다. 
 + 
 +다중 회귀 분석에서 회귀 계수의 해석은 단순 회귀 분석과 차별화다. 특정 독립 변수 $ X_j $의 계수인 $ _j $는 다른 모든 독립 변수의 값이 고정되어 있다는 전제하에(ceteris paribus), $ X_j $가 1단위 증가할 때 종속 변수 $ Y $가 평균적으로 변화하는 양을 나타낸다. 이를 [[편회귀 계수]](partial regression coefficient)라고 부르며, 이는 단순히 두 변수 사이의 상관관계가 아니라 다른 변수들의 영향을 배제한 상태에서의 순수한 영향력을 의미한다. 
 + 
 +모델의 전체적인 유의성을 검정하기 위해서는 [[F-검정]](F-test)을 사용한. 이는 모든 회귀 계수가 0이라는 [[귀무 가설]]을 설정하고, 모델이 통계적으로 유의미한 설명력을 갖는지 판단하는 절차이다. 또한 모델의 적합도를 평가하는 지표로 [[결정 계수]]($ R^2 $)가 활용되는데, 다중 회귀에서는 독립 변수의 수가 늘어날수록 $ R^2 $ 값이 기계적으로 상승하는 경향이 있다. 이를 보완하기 위해 변수의 개수와 표본 크기를 고려하여 [[자유도]]를 조정한 [[조정된 결정 계수]](Adjusted $ R^2 $)를 사용하여 모델의 효율성을 객관적으로 평가한다.((다중회귀에서 회귀계수 추정량의 특성, https://scienceon.kisti.re.kr/srch/selectPORSrchArticle.do?cn=JAKO202131541759391&dbt=NART 
 +))
  
 === 편회귀 계수의 해석 === === 편회귀 계수의 해석 ===
  
-다른 변수가 된 에서 특정 변수가 갖는 고한 영향력을 해석하는 방법을 다.+[[다중 선형 회귀]] 모델에서 각 독립 변수의 계수는 해당 변수가 [[종속 변수]]에 미치는 고유한 영향력을 나타내며, 이를 **편회귀 계수**(Partial Regression Coefficient)라고 정의한다. 일반적인 다중 회귀 식을 다음과 같이 상정할 때, 
 + 
 +$ Y = _0 + _1 X_1 + _2 X_2 + + _k X_k + $ 
 + 
 +여기서 임의의 계수 $ _j $는 다른 모든 독립 변수 $ {X_1, , X_k} {X_j} $의 값이 일정하게 유지된다는 전제하에, $ X_j $가 한 단위 증가할 때 기대되는 $ Y $의 평균적인 변화량을 의미한다. 이러한 해석 방식을 경학적 용어로 **세테리스 파리부스**(Ceteris Paribus), 즉 ’다른 모든 조건이 동일하다면’이라는 원칙에 따른 해석이라 한다. 이는 [[단순 선형 회귀]]에서의 계수가 변수 간의 단순한 관관계를 포괄하는 것과 달리, 다중 회귀에서는 변수 간의 복잡한 연관성을 통계적으로 분리하여 특정 변수만의 순수한 기여도를 추출하려 시도함을 보여준다. 
 + 
 +편회귀 계수의 수학적 본질은 [[프리슈-워-로벨 정리]](Frisch-Waugh-Lovell Theorem)를 통해 명확히 이해될 수 있다((Frisch, R., & Waugh, F. V. (1933). Partial Time Regressions as Compared with Individual Trends. Econometrica, 1(4), 387-401. http://www.jstor.org/stable/1907330 
 +)). 이 정리에 따르면, 특정 독립 변수 $ X_j $의 계수 $ _j $를 구하는 과정은 두 단계의 보조 회귀로 환원될 수 있다. 먼저 $ Y $를 $ X_j $를 제외한 나머지 모든 독립 변수들에 대해 회귀 분석하여 그 [[잔차]](Residual)를 구하고, 다시 $ X_j $를 동일한 나머지 변수들에 대해 회귀 분석하여 그 잔차를 구한다. 이때 두 잔차 사이의 관계를 분석하여 얻은 계수는 원래의 다중 회귀 모델에서 얻은 $ _j $와 수치적으로 일치한다. 이는 편회귀 계수가 단순히 $ X_j $와 $ Y $의 관계를 보는 것이 아니라, 다른 변수들에 의해 설명되는 부분을 모두 제거(Partialling out)하고 남은 ’순수한 변동분’들 사이의 관계를 정량화한 것임을 시사한다. 
 + 
 +이러한 특성 때문에 편회귀 계수는 독립 변수들 사이에 상관관계가 존재할 때 매우 중요한 의미를 갖는다. 만약 중요한 독립 변수가 모델에서 누락된다면, 포함된 변수의 계수는 누락된 변수의 영향력까지 흡수하여 왜곡될 수 있는데 이를 [[누락 변수 편향]](Omitted Variable Bias)이라 한다. 편회귀 계수는 관련 변수들을 모델에 포함함으로써 이러한 편향을 통제하, 각 요인의 개별적 영향력을 분리해내는 역할을 수행다. 그러나 독립 변수들 사이의 상관관계가 극도로 높은 [[다중 공선성]](Multicollinearity)이 존재할 경우, 특정 변수의 영향력을 고립시켜 추정하는 과정에서 계수의 [[분산]]이 커지고 해석의 신뢰성이 저될 수 있다는 점에 유의해야 한
 + 
 +마지막으로 편회귀 계수의 크기 자체를 변수 간 영향력의 상대적 중요도로 직접 비교하기는 어렵다. 각 변수는 서로 다른 측정 단위를 가질 수 있기 때문이다. 예를 들어 소득(원)과 교육 연수(년)의 계수를 단순 비교하는 것은 무의미하다. 따라서 변수 간 상대적 기여도를 비교하기 위해서는 각 변수를 표준편차 단위로 변환하여 산출한 [[표준화 회귀 계수]](Standardized Regression Coefficient)를 활용하는 것이 일반적이다. 또한, 편회귀 계수가 통계적으로 유의미하더라도 이는 수치적인 연관성을 나타낼 뿐이며, 엄밀한 의미의 [[인과 관계]](Causality)를 확립하기 위해서는 연구 설계 단계에서의 이론적 타당성과 [[내생성]](Endogeneity) 문제에 대한 면밀한 검토가 병행되어야 한다.
  
 === 다중 공선성 문제 === === 다중 공선성 문제 ===
  
-독립 변수 간의 강한 상관관계가 분석 결과에 미치는 부정적 영향과 해결을 제시한다.+[[다중 선형 회귀 분석]](Multiple Linear Regression Analysis)에서 [[독립 변수]](Independent Variable)들 사이에 강한 선형 상관관계가 존재하는 현상을 다중 공선성(Multicollinearity)이라 한다. 고전적 선형 회귀 모델의 핵심 가정 중 하나는 독립 변수들 사이에 완전한 선형 관계가 존재하지 않아야 한다는 [[비공선성]](Non-multicollinearity)이다. 만약 특정 독립 변수가 다른 독립 변수들의 선형 결합으로 완벽하게 표현된다면, 이를 완전 다중 공선성(Perfect Multicollinearity)이라 하며, 이 경우 [[최소제곱법]](Ordinary Least Squares, OLS)을 통한 매개변수 추정 자체가 수치적으로 불가능해진다. 실제 분석 환경에서는 완전한 종속성보다는 변수 간의 높은 상관관계로 인해 발생하는 불완전 다중 공선성이 주로 문제된다. 
 + 
 +행렬 대수학적 관점에서 살펴보면, 회귀 계수 벡터 $  $는 $ (X^T X)^{-1} X^T Y $의 형태로 도출된다. 여기서 독립 변수 행렬 $ X $의 열들 사이에 강한 선형 관계가 존재하면, 행렬 $ X^T X $의 [[행렬식]](Determinant) 값이 0에 매우 가깝게 수렴하게 된다. 이는 [[역행렬]]의 원소들을 비정상적으로 크게 만드는 결과를 초래하며, 결과적으로 회귀 계수의 [[분산]](Variance)을 급격히 팽창시킨다. 다중 공선성이 존재할 때 제 $ j $번째 회귀 계수 추정량 $ _j $의 분산은 다음과 같이 표현된다. 
 + 
 +$$ Var(\hat{\beta}_j) = \frac{\sigma^2}{\sum (X_{ij} - \bar{X}_j)^2} \cdot \frac{1}{1 - R_j^2} $$ 
 + 
 +위 식서 $ R_j^2 $는 해당 독립 변수 $ X_j $를 나머지 독립 변수들에 대해 회귀 분석하였을 때 얻어지는 [[결정 계수]]이다. $ R_j^2 $의 값이 1에 가까워질수록 분산은 무한히 커지게 된다. 이러한 분산의 증가는 개별 회귀 계수의 [[표준 오차]](Standard Error)를 증대시켜 [[t-검정]] 통계량을 낮추는 결과를 낳는다. 이로 인해 실제로는 종속 변수에 유의미한 영향을 미치는 변수임에도 불구하고 통계적으로 유의하지 않은 것으로 판정되는 [[제2종 오류]]를 범할 가능성이 커진다. 
 + 
 +다중 공선성이 발생했을 때 나타나는 전형적인 징후 중 하나는 모델 전체의 유의성을 나타내는 [[F-검정]] 결과는 매우 유의미하고 결정 계수도 높게 나타나지만, 개별 변수들에 대한 t-검정 결과는 대분 유의하지 않게 나타나는 모순적 상황이다. 또한, 데이터에 포함된 소수의 관측치만 변경되어도 회귀 계수의 추치가 크게 요동치는 불안정성을 보이며, 심지어 계수의 부호가 이론적 기대나 상식과는 반대로 나타나는 등 모델의 [[해석 가능성]](Interpretability)을 심각하게 훼손한다. 이는 변수 간의 영향력이 서로 얽혀 있어 특정 변수만의 고유한 기여도를 분리해내기 어렵기 때문이다. 
 + 
 +다중 공선성을 진단하기 위해 가장 널리 사용되는 지표는 [[분산 팽창 지수]](Variance Inflation Factor, VIF)이다. VIF는 앞서 언급한 분산 공식의 비례 인자인 $ 1 / (1 - R_j^2) $로 정의된다. 통상적으로 VIF 값이 10을 초하면 해당 변수에 심각한 다중 공선성 문제가 있는 것으로 간주하며, 보수적인 기준에서는 4 또는 5를 임계치로 설정하기도 한다. 이외에도 독립 변수 행렬의 [[고윳값]](Eigenvalue)을 분석하여 가장 큰 고윳값과 가장 작은 고윳값의 비율을 측정한 [[상태 지수]](Condition Index)를 활용하거나, 독립 변수 간의 [[상관계수]] 행렬을 검토하는 방법이 병행된다. 
 + 
 +이러한 문제를 해결하기 위한 실무적 방안으로는 우선 논리적으로 중복되거나 상관관계가 지나치게 높은 변수 중 하나를 모델에서 제거하는 방법이 있다. 또한, 유사한 성격의 변수들을 결합하여 새로운 지표를 생성하거나, [[주성분 분석]](Principal Component Analysis, PCA)을 통해 서로 독립적인 성분들로 변수를 변환하여 회귀 분석을 수행함으로써 공선성을 원천적으로 차단할 수 있다. 통계적 기법으로는 모델에 일정한 편향(Bias)을 허용하는 대신 분산을 획기적으로 줄이는 [[정규화]](Regularization) 방법론이 선호된다. 특히 계수의 크기에 약을 가하는 [[릿지 회귀]](Ridge Regression)는 다중 공선성으로 인해 비대해진 회귀 계수를 수축켜 모델의 예측 안정성을 높이는 데 탁월한 성능을 발휘한다. 만약 데이터 수집 단계에서 통제가 가능하다면, 표본의 크기를 대폭 늘려 추정량의 정밀도를 확보하는 것 역시 근본적인 해결책이 될 수 있다.
  
 ===== 모델의 가정과 진단 ===== ===== 모델의 가정과 진단 =====
줄 182: 줄 256:
 ==== 가우스 마르코프 정리 ==== ==== 가우스 마르코프 정리 ====
  
-최소제곱 추정량이 최선 선형 불편 추정량이 기 위한 조건들을 체계적으로 정리한다.+가우스 마르코프 정리(Gauss-Markov Theorem)는 [[선형 회귀 모델]](Linear Regression Model)에서 [[최소제곱법]](Ordinary Least Squares, OLS)을 통해 도출한 추정량이 일정한 가정하에서 가장 효율적인 통계적 특성을 가짐을 증명하는 이론이다. 이 정리는 추정량의 우수성을 판단하는 기준인 [[최선 선형 불편 추정량]](Best Linear Unbiased Estimator, BLUE)의 존재 조건을 체계적으로 규정하며, [[통계학]]과 [[계량경제학]]의 론적 근간을 형성한다. 가우스 마르코프 정리에 따르면, 오차항에 대한 특정 가정들이 충족될 때 OLS 추정량은 모든 선형 불편 추정량 중에서 가장 작은 분산을 갖는다. 
 + 
 +OLS 추정량이 최선 선형 불편 추정량으로서의 지위를 갖기 위해서는 다섯 가지의 고전적 가정이 전제되어야 다. 첫째는 모델의 선형성(Linearity)이다. 이는 종속 변수 $ Y $와 독립 변수 $ X $ 사이의 관계가 모수(Parameter) $ $에 대해 선형적인 형태인 $ Y = X+ $으로 표현되어야 함을 의미한다. 둘째는 오차항의 조건부 평균이 0이어야 한다는 외생성(Exogeneity) 가정이다. 수학적으로는 $ E(| X) = 0 $으로 표기하며, 이는 독립 변수가 오차항에 포함된 다른 요인과 상관관계가 없음을 나타낸다. 셋째는 모든 관측치에서 오차항의 분산이 일정해야 한다는 [[등분산성]](Homoscedasticity) 가정이다. 넷째는 서로 다른 관측치의 오차항 사이에 상관관계가 존재하지 않아야 한다는 무상관성(No Autocorrelation) 가정이다. 마지막으로 독립 변수들 사이에 완전한 선형 관계가 존재하지 않아야 한다는 비공선성(No Perfect Collinearity) 가정이 필요하다. 
 + 
 +이러한 가정들이 충족될 때 OLS 추정량 $  $가 갖는 BLUE로서의 성질은 다음과 같이 정의된다. 우선 선형성(Linear)은 추정량 $  $가 종속 변수 $ Y $의 선형 결합으로 표현될 수 있음을 의미한다. 불편성(Unbiased)은 추정량의 기댓값이 실제 모수의 값과 일치함, 즉 $ E() = $를 만족하여 체계적인 편향이 존재하지 않음을 뜻한다. 마지막으로 최선(Best) 혹은 효율성(Efficiency)은 모든 선형 불편 추정량들 중에서 OLS 추정량의 분산이 최소가 됨을 의미한다. 임의의 다른 선형 불편 추정량을 $  $라고 할 때, 가우스 마르코프 정리는 다음의 부등식이 성립함을 입증한다
 + 
 +$$ Var(\hat{\beta}) \leq Var(\tilde{\beta}) $$ 
 + 
 +주목할 점은 가우스 마르코프 정리가 성립하기 위해 오차항이 반드시 [[정규 분포]](Normal Distribution)를 따를 필요는 없다는 것이다. 오차항의 분포에 대한 가정 없이도 상기된 기본 가정들만 충족된다면 OLS 추정량은 선형 추정량의 범주 안에서 최소 분산을 보장받는다. 그러나 만약 등분산성 가정이 위배되어 [[이분산성]](Heteroscedasticity)이 나타나거나 오차항 간에 자기상관이 존재할 경우, OLS 추정량은 여전히 불편 추정량일 수는 있으나 더 이상 최선(Best)의 성질을 유지하지 못하게 된다. 이러한 상황에서는 [[일반화 최소제곱법]](Generalized Least Squares, GLS)과 같은 대안적 추정 기법이 요구된다. 최근의 연구는 이러한 고전적 정리를 현대적인 고차원 데이터 환경이나 완화된 가정 하에서도 적용할 수 있도록 확장하는 방향으로 전개되고 있다((A Modern Gauss–Markov Theorem, https://onlinelibrary.wiley.com/doi/10.3982/ECTA19255?af=R 
 +)).
  
 ==== 잔차 분석 ==== ==== 잔차 분석 ====
줄 200: 줄 283:
 === 선형성 및 독립성 검정 === === 선형성 및 독립성 검정 ===
  
-변수 간의 선형 관계와 오차항의 독립적 분포 를 확인하는 절차를 설명한다.+[[선형 회귀 모델]](Linear Regression Model)이 정당성을 갖기 위한 가장 근본적인 전제는 [[독립 변수]](Independent Variable)와 [[종속 변수]](Dependent Variable) 사이의 관계가 선형적이어야 한다는 [[선형성]](Linearity) 가정이다. 선형성 가정이 위배될 경우, 모델은 데이터의 체계적인 패턴을 포착하지 못하여 [[편향]](Bias)된 추정치를 산출하게 된다. 이를 검증하는 가장 직관적인 방법은 잔차 산점도(Residual Plot)를 분석하는 것이다. 가로축에 모델의 예측값($  $)을, 세로축에 [[잔차]](Residual, $ e $)를 배치하여 시각화했을 때, 잔차들이 특정 경향성 없이 무작위로 분포해야 선형성 가정이 충족된 것으로 주한다. 만약 잔차의 분포가 곡선 형태를 띠거나 특정 방향으로 치우친다면, 이는 변수 간의 관계가 비선형적이거나 모델에 고차항 또는 [[상호작용항]](Interaction Term)이 누락되었음을 시사한다. 보다 엄밀한 통계적 검정으로는 [[램지의 RESET 검정]](Ramsey’s Regression Equation Specification Error Test, RESET)이 활용될 수 있는데, 이는 독립 변수의 고차항을 모델에 추가하여 그 유의성을 검토함으로써 모델의 설정 오류(Specification Error)를 탐지한다. 
 + 
 +오차항의 [[독립성]](Independence) 검정은 관측치 간의 오차가 서로 상관되어 있지 않아야 한다는 가정을 확인하는 절차이다. 특히 데이터가 시간의 흐름에 따라 수집되는 [[시계열 분석]](Time Series Analysis) 환경에서 이 가정의 충족 여부는 매우 중요하다. 오차항 사이에 상관관계가 존재하는 [[자기상관]](Autocorrelation) 현상이 발생하면, [[최소제곱법]](Ordinary Least Squares, OLS)으로 추정된 회귀 계수의 [[분산]]이 과소 추정되어 통계적 유의성 검정의 신뢰도가 하락하게 된다. 독립성을 검정하기 위해 널리 사용되는 지표는 [[더빈-왓슨 검정]](Durbin-Watson test)이다. 더빈-왓슨 통계량 $ d $는 다음과 같이 정의된다. 
 + 
 +$$ d = \frac{\sum_{t=2}^n (e_t - e_{t-1})^2}{\sum_{t=1}^n e_t^2} $$ 
 + 
 +여기서 $ e_t $는 $ t $ 시점에서의 잔차를 의미한다. 통계량 $ d $는 0에서 4 사이의 값을 가지며, 일반적으로 2에 가까울수록 오차항 간의 자기상관이 없는 독립적인 상태로 해석한다. $ d $값이 0에 가까우면 양의 자기상관이, 4에 가까우면 음의 자기상관이 존재함을 뜻한다. 
 + 
 +독립성 가정을 위반하는 주요 원인 중 하나는 모델에서 중요한 설명 변수가 누락되었거나 시계열 데이터 고유의 [[추세]](Trend) 및 [[계절성]](Seasonality)이 적절히 통제되지 않았기 때문이다. 이를 보완하기 위해 [[일반화 최소제곱법]](Generalized Least Squares, GLS)이나 [[자기회귀 모델]](Autoregressive Model) 등의 확장된 방법론이 동원되기도 한다. 선형성과 독립성에 대한 종합적인 진단은 모델의 예측 성능을 보장할 뿐만 아니라, 회귀 계수의 통계적 추론이 유효하기 위한 필수적인 단계이다. 이러한 가정들이 충족되지 않은 상태에서 도출된 결론은 데이터의 본질적인 구조를 왜곡할 위험이 크므로, 분석가는 잔차 분석을 통해 모델의 적합성을 끊임없이 재고해야 한다.((Global Validation of Linear Model Assumptions, https://ncbi.nlm.nih.gov/pmc/articles/PMC2820257/pdf/nihms2365.xml.fixed.pdf 
 +))
  
 === 등분산성 및 정규성 검정 === === 등분산성 및 정규성 검정 ===
  
-오차항의 분산이 일정하고 정규 분포를 따르지 확인하는 기법을 기한다.+[[선형 회귀 모델]]의 유효성을 보장하기 위해 반드시 검증해야 하는 핵심 가정 중 하나는 [[오차항]](Error term)의 [[등분산성]](Homoscedasticity)이다. 등분산성이란 모든 독립 변수 값에 대하여 오차항의 [[분산]]이 일정한 상수를 유지해야 함을 의미한다. 만약 오차항의 분산이 독립 변수의 크기나 특정 조건에 따라 변화한다면 이를 [[이분산성]](Heteroscedasticity)이라 한다. 이분산성이 존재할 경우, [[최소제곱법]](Ordinary Least Squares, OLS)을 통해 얻은 회귀 계수 추정량은 여전히 [[불편성]](Unbiasedness)을 유지지만, 더 이상 [[가우스 마르코프 정리]]가 보장하는 [[최선 선형 불편 추정량]](Best Linear Unbiased Estimator, BLUE)이 되지 못한다. 즉, 추정량의 효율성이 상실되어 표준 오차가 왜곡되며, 결과적으로 $ t $ 검정이나 $ F $ 검정과 같은 [[가설 검정]]의 신뢰도가 저하된다. 
 + 
 +등분산성을 진단하는 가장 직관적인 방법은 [[잔차]](Residual)를 활용한 시각적 분석이다. 일반적으로 가로축에 독립 변수나 예측값($  $)을 두고 세로축에 잔차를 배치한 잔차 산점도를 작성한다. 등분산 가이 충족된다면 잔차들은 특정 패턴 없이 무작위로 분포해야 하며, 만약 잔차의 폭이 나팔 모양으로 넓어지거나 좁아지는 형태를 보인다면 이분산성을 의심할 수 있다. 보다 정밀한 통계적 검정을 위해서는 [[브로이슈-패건 검정]](Breusch-Pagan test)이나 [[화이트 검정]](White test)이 주로 사용된다. 브로이슈-패건 검정은 잔차의 제곱을 종속 변수로 하고 독립 변수들을 설명 변수로 하는 보조 회귀식을 구성하여 분산의 변동성을 확인한다.((A Simple Test for Heteroscedasticity and Random Coefficient Variation, https://econpapers.repec.org/RePEc:ecm:emetrp:v:47:y:1979:i:5:p:1287-94 
 +)) 화이트 검정은 이보다 일반적인 형태로, 독립 변수들의 제곱항과 상호작용항까지 고려여 비선형적인 이분산성 패턴까지 포착할 수 있는 장점이 있다.((A Heteroskedasticity-Consistent Covariance Matrix Estimator and a Direct Test for Heteroskedasticity, https://ideas.repec.org/a/ecm/emetrp/v48y1980i4p817-38.html 
 +)) 
 + 
 +오차항의 [[정규성]](Normality) 가정은 회귀 모델의 모수적 추론을 위해 필수적이다. 고전적 선형 회귀 모델에서는 오차항이 평균이 0이고 분산이 $ ^2 $인 [[정규 분포]]를 따른다고 가정한다. 이러한 가정이 충족될 때, 표본의 크가 작더라도 회귀 계수 추정량의 분포가 정규성을 띠게 되어 정확한 [[신뢰 구간]] 산출과 유의성 검정이 가능해진다. 대규모 표본의 경우 [[중심 극한 정리]]에 의해 추정량이 점근적으로 정규성을 갖게 되나, 소규모 표본 연구나 정밀한 예측 모델링에서는 정규성 위배가 모델의 강건성을 크게 해칠 수 있다. 
 + 
 +정규성을 검정하기 위한 시각적 도구로는 [[Q-Q 플롯]](Quantile-Quantile Plot)이 대표적이다. 이는 이론적 정규 분포의 분위수와 실제 잔차의 분위수를 대응시킨 도표로, 잔차들이 직선상에 위치할수록 정규성 가정을 잘 만족하는 것으로 해석한다. 수치적 검정 방으로는 [[샤피로-윌크 검정]](Shapiro-Wilk test)과 [[자크-베라 검정]](Jarque-Bera test)이 널리 활용된다. 특히 자크-베라 검정은 분포의 [[왜도]](Skewness)와 [[첨도]](Kurtosis)가 정규 분포의 특성(왜도 0, 첨도 3)에서 얼마나 벗어나 있는지를 기초로 검정 통계량을 산출한다.((A Test for Normality of Observations and Regression Residuals, https://www.jstor.org/stable/1403192 
 +)) 만약 정규성 가정이 위배되었다면, 변수 변환(Transformation) 법을 적용하거나 [[일반화 선형 모델]] 등 비모수적 혹은 준모수적 대안을 고려해야 한다.
  
 ===== 확장된 회귀 모델 ===== ===== 확장된 회귀 모델 =====
줄 238: 줄 339:
 === 로지스틱 회귀 분석 === === 로지스틱 회귀 분석 ===
  
-분법적 선택이나 범주형 종속 변수를 예측하기 위한 회귀 기법을 다다.+[[로지스틱 회귀 석]](Logistic Regression Analysis)은 [[종속 변수]]가 범주형(Categorical) 데이터, 특히 이항(Binary) 형태를 가질 때 독립 변수와 종속 변수 간의 관계를 설명하기 위해 고안된 통계적 방론이다. 전통인 [[선형 회귀]] 모델은 종속 변수가 연속형 변수이며 [[정규 분포]]를 따른다는 가정을 전제로 한다. 그러나 종속 변수가 ‘성공’ 혹은 ‘실패’, ‘생존’ 혹은 ’사망’과 같이 두 가지 상태만을 갖는 경우, 선형 모델을 그대로 적용하면 예측값이 0과 1의 범위를 벗어날 수 있으며 오차항의 [[등분산성]] 가정이 위배되는 문제가 발생한다. 이러한 한계를 극복하기 위해 로지스틱 회귀는 [[일반화 선형 모델]](Generalized Linear Model)의 틀 안에서 [[연결 함수]](Link Function)를 활용하여 종속 변수의 발생 확률을 모델링다. 
 + 
 +로지스틱 회귀의 핵심은 종속 변수가 1일 확률을 $ P $라고 할 때, 이를 직접 선형 결합으로 나타내지 않고 [[승산]](Odds)의 개념을 도입하는 데 있다. 승산은 사건이 발생할 확률과 발생하지 않을 확률의 비인 $  $로 정의된다. 여에 자연로그를 취한 값을 [[로짓]](Logit)이라 하며, 로지스틱 회귀 모델은 이 로짓 값을 독립 변수들의 선형 결합으로 표현한다. 수학적 형태는 다음과 같다. 
 + 
 +$$ \ln\left(\frac{P}{1-P}\right) = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_k X_k $$ 
 + 
 +위 식에서 좌변의 로짓은 $ -$에서 $ +$ 사이의 값을 가질 수 있게 되어, 우변의 선형 회귀식과 수치적으로 대응이 가능해진다. 이를 확률 $ P $에 대해 정리하면 다음과 같은 [[로지스틱 함수]](Logistic Function) 또는 [[시그모이드 함수]](Sigmoid Function)의 형태를 얻는다. 
 + 
 +$$ P = \frac{1}{1 + e^{-(\beta_0 + \sum \beta_i X_i)}} $$ 
 + 
 +이 함수는 $ S $자 형태의 곡선을 그리며, 어떠한 독립 변수 값이 입력되더라도 출력되는 확률값 $ P $가 항상 0과 1 사이의 범위에 머물도록 보장한다. 이는 이분적 선택 상황에서 특정 사건의 발생 가능성을 정량화하는 데 매우 적합한 특성이
 + 
 +모델의 모수인 [[회귀 계수]]를 추정할 때는 선형 회귀에서 사용되는 [[최소제곱법]] 대신 [[최대우도법]](Maximum Likelihood Estimation, MLE)을 사용한다. 최대우도법은 관측된 데이터가 나타날 확률인 [[우도 함수]](Likelihood Function)를 최대화하는 계수 값을 찾는 수치적 최적화 과정을 거친다. 로지스틱 회귀에서 각 회귀 계수 $ _i $의 의미는 다른 모든 독립 변수가 고정된 상태에서 $ X_i $가 1단위 증가할 때, 로그 승산(Log-odds)이 변화하는 양을 나타낸다. 이를 실제 직관적으로 해석하기 위해 계수에 지수 함수를 취한 $ e^{_i} $를 사용하는데, 이는 해당 독립 변수의 변화에 따른 [[오즈비]](Odds Ratio)의 변화량을 의미한다. 
 + 
 +로지스틱 회귀 분석은 [[사회과학]], [[의학]], [[마케팅]] 등 다양한 분야에서 널리 활용된다. 예를 들어 환자의 특정 임상적 수치들을 바탕으로 질병의 유무를 예측하거나, 소비자의 인구통계학적 특성을 통해 특정 상품의 구매 여부를 판단하는 데 필수적인 도구로 쓰인다. 또한 종속 변수의 범주가 셋 이상인 경우에는 [[다항 로지스틱 회귀]](Multinomial Logistic Regression)로 확장할 수 있으며, 범주 간에 순서가 존재하는 경우에는 [[순서형 로지스틱 회귀]](Ordinal Logistic Regression)를 적용하여 보다 정교한 분석을 수행할 수 있다. 모델의 적합도는 [[로그 우도]](Log-likelihood) 기반의 지표나 [[호스머-레메쇼 검정]](Hosmer-Lemeshow test), 그리고 분류 정확도를 나타내는 [[혼동 행렬]](Confusion Matrix) 등을 통해 종합적으로 평가된다.
  
 === 포아송 회귀 분석 === === 포아송 회귀 분석 ===
  
-단위 시간이나 공간 내에서 발생하는 사건의 횟수를 분석하는 모델을 소개한다.+포아송 회귀 분석(Poisson Regression Analysis)은 종속 변수가 특정 단위 시간공간, 혹은 정해진 구역 내에서 발생하는 사건의 횟수, 즉 [[계수 데이터]](Count Data)일 때 적용하는 [[일반화 선형 모델]](Generalized Linear Model, GLM)의 특수한 형태이다. 고전적인 [[선형 회귀]] 모델은 종속 변수가 연속형 변수이며 [[정규 분포]]를 따른다는 가정을 전제로 하지만, 사건의 발생 횟수는 0 이상의 정수값만을 가지며 분포가 오른쪽으로 긴 꼬리를 갖는 비대칭적 형태를 띠는 경우가 많다. 이러한 데이터에 선형 모델을 직접 적용하면 예측값이 음수로 산출되는 논리적 모순이 발생할 수 있으며, 평균이 증가함에 따라 분산도 함께 증가하는 계수 데이터의 특성으로 인해 [[등분산성]] 가정이 위배되는 문제가 발생한다. 포아송 회귀 분석은 이러한 계수 데이터의 통계적 특성을 엄밀게 반영하기 위해 고안되었다. 
 + 
 +포아송 회귀 분석의 수리적 기초는 종속 변수 $ Y $가 평균 $ $를 모수로 갖는 [[포아송 분포]](Poisson Distribution)를 따른다는 가정에 있다. 포아송 분포의 확률질량함수는 다음과 같이 정의된다. 
 + 
 +$$ P(Y=y) = \frac{e^{-\lambda} \lambda^y}{y!}, \quad y = 0, 1, 2, \dots $$ 
 + 
 +여기서 $ $는 해당 단위 구간 내에서 기대되는 사건의 발생 횟수를 의미한다. 일반화 선형 모델의 틀 안에서 포아송 회귀는 [[로그 연결 함수]](Log Link Function)를 사용하여 독립 변수들의 선형 결합과 기대값 $ $ 사이의 관계를 설정한다. 모델의 기본 구조는 다음과 같다. 
 + 
 +$$ \ln(\lambda) = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_k X_k = \mathbf{x}^T \mathbf{\beta} $$ 
 + 
 +위 식을 $ $에 대해 정리하면 기대값은 독립 변수의 지수 함수 형태로 표현된다. 
 + 
 +$$ \lambda = \exp(\beta_0 + \beta_1 X_1 + \dots + \beta_k X_k) = e^{\mathbf{x}^T \mathbf{\beta}} $$ 
 + 
 +이러한 지수적 구조는 독립 변수의 값에 관계없이 기대값 $ $가 항상 0보다 큰 양의 값을 유지하도록 보장함으로써, 선형 회귀 모델이 가질 수 있는 수치적 한계를 극복한다. 모델의 파라미터인 [[회귀 계수]] $ $는 일반적으로 [[최대우도법]](Maximum Likelihood Estimation, MLE)을 통해 추정되며, 이는 관측된 데이터가 발생할 확률을 최대화하는 계수 값을 찾는 수치적 최적화 과정을 거친다. 
 + 
 +포아송 회귀 모델에서 계수의 해석은 선형 회귀와 달리 곱셈적(multiplicative) 성격을 지닌다. 특정 독립 변수 $ X_j $가 1단위 증가할 때, 다른 모든 변수가 일정하다면 사건의 기대 발생 횟수 $ $는 $ e^{_j} $배 변화한다. 이를 [[발생률비]](Incidence Rate Ratio, IRR)라고 하며, 특정 요인이 사건 발생 빈도에 미치는 상대적인 영향력을 파악하는 지표로 활용된다. 또한, 관측 단위마다 노출 시간이나 면적이 서로 다를 경우 이를 보정하기 위해 [[오프셋]](Offset) 변수를 도입한다. 로그 변환된 노출량을 모델의 우변에 계수가 1인 항으로 추가함으로써, 서로 다른 관측 조건하에서도 단위 노출당 발생률을 객관적으로 비교할 수 있게 된다. 
 + 
 +포아송 회귀 모델을 적용할 때 반드시 검토해야 할 중요한 가정 중 하나는 평균과 분산이 동일하다는 [[등분산성]](Equidispersion) 가정이다. 즉, 포아송 분포의 성질에 따라 $ E(Y) = Var(Y) = $가 성립해야 한다. 그러나 실제 응용 분야에서는 관측된 데이터의 분산이 평균보다 훨씬 크게 나타나는 [[과분산]](Overdispersion) 현상이 빈번하게 관측된다. 만약 과분산이 존재하는 데이터에 표준적인 포아송 회귀를 적용할 경우, 계수의 표준오차가 실제보다 작게 추정되어 [[통계적 유의성]]을 과대평가하는 오류를 범할 수 있다. 이러한 한계를 극복하기 위해 분산 구조를 보다 유연하게 설정한 [[음이항 회귀]](Negative Binomial Regression) 모델이나, 0의 빈도가 이론적 예측보다 과도하게 많은 경우를 처리하기 위한 [[영과잉 모델]](Zero-inflated Model) 등의 확장된 방법론이 사용된다. 
 + 
 +포아송 회귀 분석은 다양한 실증 연구 분야에서 필수적인 도구로 활용된다. [[역학]](Epidemiology)에서는 특정 기간 내 희귀 질병의 발병 건수를 분석하거나 환경 요인에 따른 사망률 변화를 규명하는 데 사용된다. [[보험계리법]](Actuarial Science)에서는 가입자별 사고 발생 횟수를 예측하여 위험률을 산정하고 적정 보험료를 결정하는 기초 모델로 기능한다. 또한 [[사회과학]] 분야에서는 특정 개인의 범죄 횟수, 특허 출원 수, 혹은 정치적 사건의 발생 빈도와 같은 비연속적 계수 데이터를 분석하여 변수 간의 인과 관계를 정량적으로 설명하는 데 기여하고 있다.
  
 ==== 정규화 회귀 방법론 ==== ==== 정규화 회귀 방법론 ====
줄 305: 줄 440:
 ==== 자연과학 및 사회과학 연구 ==== ==== 자연과학 및 사회과학 연구 ====
  
-실험 데이터 분석, 인과 관계 추론, 정책 효과 평가 에 사용되는 회귀 분석의 사를 제한다.+[[자연과학]](Natural Sciences)과 [[사회과학]](Social Sciences) 연구에서 [[회귀 분석]](Regression Analysis)은 관측된 현상의 배후에 존재하는 규칙성을 규명하고, 변수 간의 [[인과 관계]](Causality)를 정량화하는 핵심적인 도구로 기능한다. 자연과학 분야에서 이 방법론은 주로 엄격하게 통제된 [[실험]](Experiment)을 통해 얻은 데이터로부터 물리적 법칙이나 생물학적 기제를 확인하는 데 사용된다. 예를 들어, [[물리학]]에서 특정 입자의 가속도와 힘의 관계를 측정하거나 [[화학]] 반응에서 농도에 따른 반응 속도의 변화를 분석할 때연구자는 최소제곱법을 활용하여 이론적 모델의 파라미터를 추정한다. 이때 회귀 분석은 측정 과정에서 발생하는 불가피한 [[오차]](Error)를 통계적으로 처리하여, 법칙의 타당성을 검증하고 물리 상수의 최적값을 도출하는 역할을 수행한다. 
 + 
 +반면 사회과학 연구에서는 자연과학과 달리 변수를 완벽하게 통제하는 것이 불가능한 경우가 많으므로, [[관찰 데이터]](Observational Data)를 바탕으로 인과 관계를 추론하는 데 회귀 분석의 초점이 맞춰진다. 사회과학자들은 관심 있는 [[독립 변수]] 외에도 결과에 영향을 미칠 수 있는 수많은 외생적 요인들을 [[통제 변수]](Control Variables)로 모델에 포함함으로써특정 요인의 순수한 효과를 분리해내고자 한다. 예를 들어, [[교육]] 수준이 [[임금]]에 미치는 영향을 분석할 때, 개인의 지적 능력이나 부모의 사회경제적 배경 등을 통제 변수로 삽입한 다중 회귀 모델을 구축하여 교육의 경제적 수익률을 추정한다. 이러한 분석 과정에서 발생할 수 있는 [[내생성]](Endogeneity) 문제는 [[도구 변수]](Instrumental Variables) 기법이나 [[고정 효과 모델]](Fixed Effects Model)과 같은 고도화된 회귀 방법론을 통해 보완된다. 
 + 
 +현대 사회과학과 공공 정책 분야에서는 정책이나 프로그램의 효과를 엄밀하게 평가하기 위해 [[준실험 설계]](Quasi-experimental Design)에 기반한 회귀 분석이 널리 활용된다. [[정책 평가]](Policy Evaluation)의 핵심은 정책이 시행되지 않았을 경우의 가상적 상황인 [[반사실]](Counterfactual)을 적절히 설정하는 데 있다. 이를 위해 연구자들은 [[이중차분법]](Difference-in-Differences, DID)이나 [[회귀 불연속 설계]](Regression Discontinuity Design, RDD)를 사용한다. 이중차분법은 정책 수혜 집단과 비수혜 집단의 시간적 변화 추이를 비교하며, 회귀 불연속 설계는 정책 수혜 여부가 결정되는 특정 임곗값(threshold) 근처에서의 불연속적인 변화를 회귀식으로 포착하여 인과적 효과를 식별한다. 
 + 
 +정책 효과를 추정하는 기본적인 회귀 모델의 형태는 다음과 같이 표현될 수 있다. 여기서 $ Y_i $는 성과 지표, $ D_i $는 처치(Treatment) 여부를 나타내는 이분 변수, $ X_i $는 통제 변수 벡터를 의미한다. 
 + 
 +$$ Y_i = \alpha + \tau D_i + \beta X_i + \epsilon_i $$ 
 + 
 +이 식에서 계수 $ $는 다른 조건이 동일할 때 정책이 성과에 미치는 평균적인 효과를 나타낸다. 이러한 방법론적 정교함 덕분에 회귀 분석은 단순한 상관관계의 기술을 넘어, 정부 정책의 실효성을 검증하고 데이터에 기반한 의사결정을 내리는 데 필수적인 학술적 토대를 제공하고 있다((Alberto Abadie and Matias D. Cattaneo, “Econometric Methods for Program Evaluation”, https://economics.mit.edu/sites/default/files/publications/ARE-typo-Fig4-corrected.pdf 
 +)). 특히 [[조슈아 앵그리스트]](Joshua Angrist)와 [[구이도 임벤스]](Guido Imbens) 등의 연구는 이러한 회귀 기반 인과 추론 기법이 현대 경제학 및 사회과학의 패러다임을 어떻게 변화시켰는지를 잘 보여준다.
  
회귀_분석.1776058375.txt.gz · 마지막으로 수정됨: 저자 flyingtext