사용자 도구

사이트 도구


회귀_분석

차이

문서의 선택한 두 판 사이의 차이를 보여줍니다.

차이 보기로 링크

양쪽 이전 판이전 판
회귀_분석 [2026/04/13 14:34] – 회귀 분석 sync flyingtext회귀_분석 [2026/04/13 14:34] (현재) – 회귀 분석 sync flyingtext
줄 205: 줄 205:
 === 편회귀 계수의 해석 === === 편회귀 계수의 해석 ===
  
-다른 변수가 된 에서 특정 변수가 갖는 고한 영향력을 해석하는 방법을 다.+[[다중 선형 회귀]] 모델에서 각 독립 변수의 계수는 해당 변수가 [[종속 변수]]에 미치는 고유한 영향력을 나타내며, 이를 **편회귀 계수**(Partial Regression Coefficient)라고 정의한다. 일반적인 다중 회귀 식을 다음과 같이 상정할 때, 
 + 
 +$ Y = _0 + _1 X_1 + _2 X_2 + + _k X_k + $ 
 + 
 +여기서 임의의 계수 $ _j $는 다른 모든 독립 변수 $ {X_1, , X_k} {X_j} $의 값이 일정하게 유지된다는 전제하에, $ X_j $가 한 단위 증가할 때 기대되는 $ Y $의 평균적인 변화량을 의미한다. 이러한 해석 방식을 경학적 용어로 **세테리스 파리부스**(Ceteris Paribus), 즉 ’다른 모든 조건이 동일하다면’이라는 원칙에 따른 해석이라 한다. 이는 [[단순 선형 회귀]]에서의 계수가 변수 간의 단순한 관관계를 포괄하는 것과 달리, 다중 회귀에서는 변수 간의 복잡한 연관성을 통계적으로 분리하여 특정 변수만의 순수한 기여도를 추출하려 시도함을 보여준다. 
 + 
 +편회귀 계수의 수학적 본질은 [[프리슈-워-로벨 정리]](Frisch-Waugh-Lovell Theorem)를 통해 명확히 이해될 수 있다((Frisch, R., & Waugh, F. V. (1933). Partial Time Regressions as Compared with Individual Trends. Econometrica, 1(4), 387-401. http://www.jstor.org/stable/1907330 
 +)). 이 정리에 따르면, 특정 독립 변수 $ X_j $의 계수 $ _j $를 구하는 과정은 두 단계의 보조 회귀로 환원될 수 있다. 먼저 $ Y $를 $ X_j $를 제외한 나머지 모든 독립 변수들에 대해 회귀 분석하여 그 [[잔차]](Residual)를 구하고, 다시 $ X_j $를 동일한 나머지 변수들에 대해 회귀 분석하여 그 잔차를 구한다. 이때 두 잔차 사이의 관계를 분석하여 얻은 계수는 원래의 다중 회귀 모델에서 얻은 $ _j $와 수치적으로 일치한다. 이는 편회귀 계수가 단순히 $ X_j $와 $ Y $의 관계를 보는 것이 아니라, 다른 변수들에 의해 설명되는 부분을 모두 제거(Partialling out)하고 남은 ’순수한 변동분’들 사이의 관계를 정량화한 것임을 시사한다. 
 + 
 +이러한 특성 때문에 편회귀 계수는 독립 변수들 사이에 상관관계가 존재할 때 매우 중요한 의미를 갖는다. 만약 중요한 독립 변수가 모델에서 누락된다면, 포함된 변수의 계수는 누락된 변수의 영향력까지 흡수하여 왜곡될 수 있는데 이를 [[누락 변수 편향]](Omitted Variable Bias)이라 한다. 편회귀 계수는 관련 변수들을 모델에 포함함으로써 이러한 편향을 통제하, 각 요인의 개별적 영향력을 분리해내는 역할을 수행다. 그러나 독립 변수들 사이의 상관관계가 극도로 높은 [[다중 공선성]](Multicollinearity)이 존재할 경우, 특정 변수의 영향력을 고립시켜 추정하는 과정에서 계수의 [[분산]]이 커지고 해석의 신뢰성이 저될 수 있다는 점에 유의해야 한
 + 
 +마지막으로 편회귀 계수의 크기 자체를 변수 간 영향력의 상대적 중요도로 직접 비교하기는 어렵다. 각 변수는 서로 다른 측정 단위를 가질 수 있기 때문이다. 예를 들어 소득(원)과 교육 연수(년)의 계수를 단순 비교하는 것은 무의미하다. 따라서 변수 간 상대적 기여도를 비교하기 위해서는 각 변수를 표준편차 단위로 변환하여 산출한 [[표준화 회귀 계수]](Standardized Regression Coefficient)를 활용하는 것이 일반적이다. 또한, 편회귀 계수가 통계적으로 유의미하더라도 이는 수치적인 연관성을 나타낼 뿐이며, 엄밀한 의미의 [[인과 관계]](Causality)를 확립하기 위해서는 연구 설계 단계에서의 이론적 타당성과 [[내생성]](Endogeneity) 문제에 대한 면밀한 검토가 병행되어야 한다.
  
 === 다중 공선성 문제 === === 다중 공선성 문제 ===
줄 285: 줄 296:
 === 등분산성 및 정규성 검정 === === 등분산성 및 정규성 검정 ===
  
-오차항의 분산이 일정하고 정규 분포를 따르지 확인하는 기법을 기한다.+[[선형 회귀 모델]]의 유효성을 보장하기 위해 반드시 검증해야 하는 핵심 가정 중 하나는 [[오차항]](Error term)의 [[등분산성]](Homoscedasticity)이다. 등분산성이란 모든 독립 변수 값에 대하여 오차항의 [[분산]]이 일정한 상수를 유지해야 함을 의미한다. 만약 오차항의 분산이 독립 변수의 크기나 특정 조건에 따라 변화한다면 이를 [[이분산성]](Heteroscedasticity)이라 한다. 이분산성이 존재할 경우, [[최소제곱법]](Ordinary Least Squares, OLS)을 통해 얻은 회귀 계수 추정량은 여전히 [[불편성]](Unbiasedness)을 유지지만, 더 이상 [[가우스 마르코프 정리]]가 보장하는 [[최선 선형 불편 추정량]](Best Linear Unbiased Estimator, BLUE)이 되지 못한다. 즉, 추정량의 효율성이 상실되어 표준 오차가 왜곡되며, 결과적으로 $ t $ 검정이나 $ F $ 검정과 같은 [[가설 검정]]의 신뢰도가 저하된다. 
 + 
 +등분산성을 진단하는 가장 직관적인 방법은 [[잔차]](Residual)를 활용한 시각적 분석이다. 일반적으로 가로축에 독립 변수나 예측값($  $)을 두고 세로축에 잔차를 배치한 잔차 산점도를 작성한다. 등분산 가이 충족된다면 잔차들은 특정 패턴 없이 무작위로 분포해야 하며, 만약 잔차의 폭이 나팔 모양으로 넓어지거나 좁아지는 형태를 보인다면 이분산성을 의심할 수 있다. 보다 정밀한 통계적 검정을 위해서는 [[브로이슈-패건 검정]](Breusch-Pagan test)이나 [[화이트 검정]](White test)이 주로 사용된다. 브로이슈-패건 검정은 잔차의 제곱을 종속 변수로 하고 독립 변수들을 설명 변수로 하는 보조 회귀식을 구성하여 분산의 변동성을 확인한다.((A Simple Test for Heteroscedasticity and Random Coefficient Variation, https://econpapers.repec.org/RePEc:ecm:emetrp:v:47:y:1979:i:5:p:1287-94 
 +)) 화이트 검정은 이보다 일반적인 형태로, 독립 변수들의 제곱항과 상호작용항까지 고려여 비선형적인 이분산성 패턴까지 포착할 수 있는 장점이 있다.((A Heteroskedasticity-Consistent Covariance Matrix Estimator and a Direct Test for Heteroskedasticity, https://ideas.repec.org/a/ecm/emetrp/v48y1980i4p817-38.html 
 +)) 
 + 
 +오차항의 [[정규성]](Normality) 가정은 회귀 모델의 모수적 추론을 위해 필수적이다. 고전적 선형 회귀 모델에서는 오차항이 평균이 0이고 분산이 $ ^2 $인 [[정규 분포]]를 따른다고 가정한다. 이러한 가정이 충족될 때, 표본의 크가 작더라도 회귀 계수 추정량의 분포가 정규성을 띠게 되어 정확한 [[신뢰 구간]] 산출과 유의성 검정이 가능해진다. 대규모 표본의 경우 [[중심 극한 정리]]에 의해 추정량이 점근적으로 정규성을 갖게 되나, 소규모 표본 연구나 정밀한 예측 모델링에서는 정규성 위배가 모델의 강건성을 크게 해칠 수 있다. 
 + 
 +정규성을 검정하기 위한 시각적 도구로는 [[Q-Q 플롯]](Quantile-Quantile Plot)이 대표적이다. 이는 이론적 정규 분포의 분위수와 실제 잔차의 분위수를 대응시킨 도표로, 잔차들이 직선상에 위치할수록 정규성 가정을 잘 만족하는 것으로 해석한다. 수치적 검정 방으로는 [[샤피로-윌크 검정]](Shapiro-Wilk test)과 [[자크-베라 검정]](Jarque-Bera test)이 널리 활용된다. 특히 자크-베라 검정은 분포의 [[왜도]](Skewness)와 [[첨도]](Kurtosis)가 정규 분포의 특성(왜도 0, 첨도 3)에서 얼마나 벗어나 있는지를 기초로 검정 통계량을 산출한다.((A Test for Normality of Observations and Regression Residuals, https://www.jstor.org/stable/1403192 
 +)) 만약 정규성 가정이 위배되었다면, 변수 변환(Transformation) 법을 적용하거나 [[일반화 선형 모델]] 등 비모수적 혹은 준모수적 대안을 고려해야 한다.
  
 ===== 확장된 회귀 모델 ===== ===== 확장된 회귀 모델 =====
회귀_분석.1776058468.txt.gz · 마지막으로 수정됨: 저자 flyingtext