문서의 선택한 두 판 사이의 차이를 보여줍니다.
| 양쪽 이전 판이전 판 | |||
| 회귀_분석 [2026/04/13 14:34] – 회귀 분석 sync flyingtext | 회귀_분석 [2026/04/13 14:34] (현재) – 회귀 분석 sync flyingtext | ||
|---|---|---|---|
| 줄 205: | 줄 205: | ||
| === 편회귀 계수의 해석 === | === 편회귀 계수의 해석 === | ||
| - | 다른 변수가 | + | [[다중 선형 회귀]] 모델에서 각 독립 변수의 계수는 해당 변수가 [[종속 변수]]에 미치는 고유한 영향력을 나타내며, |
| + | |||
| + | $ Y = _0 + _1 X_1 + _2 X_2 + + _k X_k + $ | ||
| + | |||
| + | 여기서 임의의 계수 $ _j $는 다른 | ||
| + | |||
| + | 편회귀 계수의 수학적 본질은 [[프리슈-워-로벨 정리]](Frisch-Waugh-Lovell Theorem)를 통해 명확히 이해될 수 있다((Frisch, | ||
| + | )). 이 정리에 따르면, 특정 독립 변수 $ X_j $의 계수 $ _j $를 구하는 과정은 두 단계의 보조 회귀로 환원될 수 있다. 먼저 $ Y $를 $ X_j $를 제외한 나머지 모든 독립 변수들에 대해 회귀 분석하여 그 [[잔차]](Residual)를 구하고, 다시 $ X_j $를 동일한 나머지 변수들에 대해 회귀 분석하여 그 잔차를 구한다. 이때 두 잔차 사이의 관계를 분석하여 얻은 계수는 원래의 다중 회귀 모델에서 얻은 $ _j $와 수치적으로 일치한다. 이는 편회귀 계수가 | ||
| + | |||
| + | 이러한 특성 때문에 편회귀 계수는 독립 변수들 사이에 상관관계가 존재할 때 매우 중요한 의미를 | ||
| + | |||
| + | 마지막으로 편회귀 계수의 크기 자체를 변수 간 영향력의 상대적 중요도로 직접 비교하기는 어렵다. 각 변수는 서로 다른 측정 단위를 가질 수 있기 때문이다. 예를 들어 소득(원)과 교육 연수(년)의 계수를 단순 비교하는 것은 무의미하다. 따라서 변수 간 상대적 기여도를 비교하기 위해서는 각 변수를 표준편차 단위로 변환하여 산출한 [[표준화 회귀 계수]](Standardized Regression Coefficient)를 활용하는 것이 일반적이다. 또한, 편회귀 계수가 통계적으로 유의미하더라도 이는 수치적인 연관성을 나타낼 뿐이며, 엄밀한 의미의 [[인과 관계]](Causality)를 확립하기 위해서는 연구 설계 단계에서의 이론적 타당성과 [[내생성]](Endogeneity) 문제에 대한 면밀한 검토가 병행되어야 한다. | ||
| === 다중 공선성 문제 === | === 다중 공선성 문제 === | ||
| 줄 285: | 줄 296: | ||
| === 등분산성 및 정규성 검정 === | === 등분산성 및 정규성 검정 === | ||
| - | 오차항의 분산이 일정하고 정규 분포를 | + | [[선형 회귀 모델]]의 유효성을 보장하기 위해 반드시 검증해야 하는 핵심 가정 중 하나는 [[오차항]](Error term)의 [[등분산성]](Homoscedasticity)이다. 등분산성이란 모든 독립 변수 값에 대하여 오차항의 [[분산]]이 일정한 상수를 유지해야 함을 의미한다. 만약 오차항의 분산이 독립 변수의 크기나 특정 조건에 따라 변화한다면 이를 [[이분산성]](Heteroscedasticity)이라 한다. 이분산성이 존재할 경우, [[최소제곱법]](Ordinary Least Squares, OLS)을 통해 얻은 회귀 계수 추정량은 여전히 [[불편성]](Unbiasedness)을 유지하지만, 더 이상 [[가우스 마르코프 정리]]가 보장하는 [[최선 선형 불편 추정량]](Best Linear Unbiased Estimator, BLUE)이 되지 못한다. 즉, 추정량의 효율성이 상실되어 표준 오차가 왜곡되며, |
| + | |||
| + | 등분산성을 진단하는 가장 직관적인 방법은 [[잔차]](Residual)를 활용한 시각적 분석이다. 일반적으로 가로축에 독립 변수나 예측값($ | ||
| + | )) 화이트 검정은 이보다 일반적인 형태로, 독립 변수들의 제곱항과 상호작용항까지 고려하여 비선형적인 이분산성 패턴까지 포착할 수 있는 장점이 있다.((A Heteroskedasticity-Consistent Covariance Matrix Estimator and a Direct Test for Heteroskedasticity, | ||
| + | )) | ||
| + | |||
| + | 오차항의 [[정규성]](Normality) 가정은 회귀 모델의 모수적 추론을 위해 필수적이다. 고전적 선형 회귀 모델에서는 오차항이 평균이 0이고 분산이 $ ^2 $인 [[정규 분포]]를 따른다고 가정한다. 이러한 가정이 충족될 때, 표본의 크기가 작더라도 회귀 계수 추정량의 분포가 정규성을 띠게 되어 정확한 [[신뢰 구간]] 산출과 유의성 검정이 가능해진다. 대규모 표본의 경우 [[중심 극한 정리]]에 의해 추정량이 점근적으로 정규성을 갖게 되나, 소규모 표본 연구나 정밀한 예측 모델링에서는 정규성 위배가 모델의 강건성을 크게 해칠 수 있다. | ||
| + | |||
| + | 정규성을 검정하기 위한 시각적 도구로는 [[Q-Q 플롯]](Quantile-Quantile Plot)이 대표적이다. 이는 이론적 정규 분포의 분위수와 실제 잔차의 분위수를 대응시킨 도표로, 잔차들이 직선상에 위치할수록 정규성 가정을 잘 만족하는 것으로 해석한다. 수치적 검정 방법으로는 [[샤피로-윌크 검정]](Shapiro-Wilk test)과 [[자크-베라 검정]](Jarque-Bera test)이 널리 활용된다. 특히 자크-베라 검정은 분포의 [[왜도]](Skewness)와 [[첨도]](Kurtosis)가 정규 분포의 특성(왜도 0, 첨도 3)에서 얼마나 벗어나 있는지를 기초로 검정 통계량을 산출한다.((A Test for Normality of Observations and Regression Residuals, https:// | ||
| + | )) 만약 정규성 가정이 위배되었다면, | ||
| ===== 확장된 회귀 모델 ===== | ===== 확장된 회귀 모델 ===== | ||