문서의 선택한 두 판 사이의 차이를 보여줍니다.
| 양쪽 이전 판이전 판다음 판 | 이전 판 | ||
| 회귀_분석 [2026/04/13 14:34] – 회귀 분석 sync flyingtext | 회귀_분석 [2026/04/13 14:34] (현재) – 회귀 분석 sync flyingtext | ||
|---|---|---|---|
| 줄 205: | 줄 205: | ||
| === 편회귀 계수의 해석 === | === 편회귀 계수의 해석 === | ||
| - | 다른 변수가 | + | [[다중 선형 회귀]] 모델에서 각 독립 변수의 계수는 해당 변수가 [[종속 변수]]에 미치는 고유한 영향력을 나타내며, |
| + | |||
| + | $ Y = _0 + _1 X_1 + _2 X_2 + + _k X_k + $ | ||
| + | |||
| + | 여기서 임의의 계수 $ _j $는 다른 | ||
| + | |||
| + | 편회귀 계수의 수학적 본질은 [[프리슈-워-로벨 정리]](Frisch-Waugh-Lovell Theorem)를 통해 명확히 이해될 수 있다((Frisch, | ||
| + | )). 이 정리에 따르면, 특정 독립 변수 $ X_j $의 계수 $ _j $를 구하는 과정은 두 단계의 보조 회귀로 환원될 수 있다. 먼저 $ Y $를 $ X_j $를 제외한 나머지 모든 독립 변수들에 대해 회귀 분석하여 그 [[잔차]](Residual)를 구하고, 다시 $ X_j $를 동일한 나머지 변수들에 대해 회귀 분석하여 그 잔차를 구한다. 이때 두 잔차 사이의 관계를 분석하여 얻은 계수는 원래의 다중 회귀 모델에서 얻은 $ _j $와 수치적으로 일치한다. 이는 편회귀 계수가 | ||
| + | |||
| + | 이러한 특성 때문에 편회귀 계수는 독립 변수들 사이에 상관관계가 존재할 때 매우 중요한 의미를 | ||
| + | |||
| + | 마지막으로 편회귀 계수의 크기 자체를 변수 간 영향력의 상대적 중요도로 직접 비교하기는 어렵다. 각 변수는 서로 다른 측정 단위를 가질 수 있기 때문이다. 예를 들어 소득(원)과 교육 연수(년)의 계수를 단순 비교하는 것은 무의미하다. 따라서 변수 간 상대적 기여도를 비교하기 위해서는 각 변수를 표준편차 단위로 변환하여 산출한 [[표준화 회귀 계수]](Standardized Regression Coefficient)를 활용하는 것이 일반적이다. 또한, 편회귀 계수가 통계적으로 유의미하더라도 이는 수치적인 연관성을 나타낼 뿐이며, 엄밀한 의미의 [[인과 관계]](Causality)를 확립하기 위해서는 연구 설계 단계에서의 이론적 타당성과 [[내생성]](Endogeneity) 문제에 대한 면밀한 검토가 병행되어야 한다. | ||
| === 다중 공선성 문제 === | === 다중 공선성 문제 === | ||
| 줄 272: | 줄 283: | ||
| === 선형성 및 독립성 검정 === | === 선형성 및 독립성 검정 === | ||
| - | 변수 간의 선형 관계와 오차항의 독립적 분포 | + | [[선형 회귀 모델]](Linear Regression Model)이 정당성을 갖기 위한 가장 근본적인 전제는 [[독립 |
| + | |||
| + | 오차항의 [[독립성]](Independence) 검정은 관측치 간의 오차가 서로 상관되어 있지 않아야 한다는 가정을 | ||
| + | |||
| + | $$ d = \frac{\sum_{t=2}^n (e_t - e_{t-1})^2}{\sum_{t=1}^n e_t^2} $$ | ||
| + | |||
| + | 여기서 $ e_t $는 $ t $ 시점에서의 잔차를 | ||
| + | |||
| + | 독립성 가정을 위반하는 주요 원인 중 하나는 모델에서 중요한 | ||
| + | )) | ||
| === 등분산성 및 정규성 검정 === | === 등분산성 및 정규성 검정 === | ||
| - | 오차항의 분산이 일정하고 정규 분포를 | + | [[선형 회귀 모델]]의 유효성을 보장하기 위해 반드시 검증해야 하는 핵심 가정 중 하나는 [[오차항]](Error term)의 [[등분산성]](Homoscedasticity)이다. 등분산성이란 모든 독립 변수 값에 대하여 오차항의 [[분산]]이 일정한 상수를 유지해야 함을 의미한다. 만약 오차항의 분산이 독립 변수의 크기나 특정 조건에 따라 변화한다면 이를 [[이분산성]](Heteroscedasticity)이라 한다. 이분산성이 존재할 경우, [[최소제곱법]](Ordinary Least Squares, OLS)을 통해 얻은 회귀 계수 추정량은 여전히 [[불편성]](Unbiasedness)을 유지하지만, 더 이상 [[가우스 마르코프 정리]]가 보장하는 [[최선 선형 불편 추정량]](Best Linear Unbiased Estimator, BLUE)이 되지 못한다. 즉, 추정량의 효율성이 상실되어 표준 오차가 왜곡되며, |
| + | |||
| + | 등분산성을 진단하는 가장 직관적인 방법은 [[잔차]](Residual)를 활용한 시각적 분석이다. 일반적으로 가로축에 독립 변수나 예측값($ | ||
| + | )) 화이트 검정은 이보다 일반적인 형태로, 독립 변수들의 제곱항과 상호작용항까지 고려하여 비선형적인 이분산성 패턴까지 포착할 수 있는 장점이 있다.((A Heteroskedasticity-Consistent Covariance Matrix Estimator and a Direct Test for Heteroskedasticity, | ||
| + | )) | ||
| + | |||
| + | 오차항의 [[정규성]](Normality) 가정은 회귀 모델의 모수적 추론을 위해 필수적이다. 고전적 선형 회귀 모델에서는 오차항이 평균이 0이고 분산이 $ ^2 $인 [[정규 분포]]를 따른다고 가정한다. 이러한 가정이 충족될 때, 표본의 크기가 작더라도 회귀 계수 추정량의 분포가 정규성을 띠게 되어 정확한 [[신뢰 구간]] 산출과 유의성 검정이 가능해진다. 대규모 표본의 경우 [[중심 극한 정리]]에 의해 추정량이 점근적으로 정규성을 갖게 되나, 소규모 표본 연구나 정밀한 예측 모델링에서는 정규성 위배가 모델의 강건성을 크게 해칠 수 있다. | ||
| + | |||
| + | 정규성을 검정하기 위한 시각적 도구로는 [[Q-Q 플롯]](Quantile-Quantile Plot)이 대표적이다. 이는 이론적 정규 분포의 분위수와 실제 잔차의 분위수를 대응시킨 도표로, 잔차들이 직선상에 위치할수록 정규성 가정을 잘 만족하는 것으로 해석한다. 수치적 검정 방법으로는 [[샤피로-윌크 검정]](Shapiro-Wilk test)과 [[자크-베라 검정]](Jarque-Bera test)이 널리 활용된다. 특히 자크-베라 검정은 분포의 [[왜도]](Skewness)와 [[첨도]](Kurtosis)가 정규 분포의 특성(왜도 0, 첨도 3)에서 얼마나 벗어나 있는지를 기초로 검정 통계량을 산출한다.((A Test for Normality of Observations and Regression Residuals, https:// | ||
| + | )) 만약 정규성 가정이 위배되었다면, | ||
| ===== 확장된 회귀 모델 ===== | ===== 확장된 회귀 모델 ===== | ||
| 줄 328: | 줄 357: | ||
| === 포아송 회귀 분석 === | === 포아송 회귀 분석 === | ||
| - | 단위 시간이나 | + | 포아송 회귀 분석(Poisson Regression Analysis)은 종속 변수가 특정 |
| + | |||
| + | 포아송 회귀 분석의 수리적 기초는 종속 변수 $ Y $가 평균 $ $를 모수로 갖는 [[포아송 분포]](Poisson Distribution)를 따른다는 가정에 있다. 포아송 분포의 확률질량함수는 다음과 같이 정의된다. | ||
| + | |||
| + | $$ P(Y=y) = \frac{e^{-\lambda} \lambda^y}{y!}, | ||
| + | |||
| + | 여기서 $ $는 해당 단위 구간 내에서 기대되는 사건의 발생 횟수를 의미한다. 일반화 선형 | ||
| + | |||
| + | $$ \ln(\lambda) = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_k X_k = \mathbf{x}^T \mathbf{\beta} $$ | ||
| + | |||
| + | 위 식을 $ $에 대해 정리하면 기대값은 독립 변수의 지수 함수 형태로 표현된다. | ||
| + | |||
| + | $$ \lambda = \exp(\beta_0 + \beta_1 X_1 + \dots + \beta_k X_k) = e^{\mathbf{x}^T \mathbf{\beta}} $$ | ||
| + | |||
| + | 이러한 지수적 구조는 독립 변수의 값에 관계없이 기대값 $ $가 항상 0보다 큰 양의 값을 유지하도록 보장함으로써, | ||
| + | |||
| + | 포아송 회귀 모델에서 계수의 해석은 선형 회귀와 달리 곱셈적(multiplicative) 성격을 지닌다. 특정 독립 변수 $ X_j $가 1단위 증가할 때, 다른 모든 변수가 일정하다면 사건의 기대 발생 횟수 $ $는 $ e^{_j} $배 변화한다. 이를 [[발생률비]](Incidence Rate Ratio, IRR)라고 하며, 특정 요인이 사건 발생 빈도에 미치는 상대적인 영향력을 파악하는 지표로 활용된다. 또한, 관측 단위마다 노출 시간이나 면적이 서로 다를 경우 이를 보정하기 위해 [[오프셋]](Offset) 변수를 도입한다. 로그 변환된 노출량을 모델의 우변에 계수가 1인 항으로 추가함으로써, | ||
| + | |||
| + | 포아송 회귀 모델을 적용할 때 반드시 검토해야 할 중요한 가정 중 하나는 평균과 분산이 동일하다는 [[등분산성]](Equidispersion) 가정이다. 즉, 포아송 분포의 성질에 따라 $ E(Y) = Var(Y) = $가 성립해야 한다. 그러나 실제 응용 분야에서는 관측된 데이터의 분산이 평균보다 훨씬 크게 나타나는 [[과분산]](Overdispersion) 현상이 빈번하게 관측된다. 만약 과분산이 존재하는 데이터에 표준적인 포아송 회귀를 적용할 경우, 계수의 표준오차가 실제보다 작게 추정되어 [[통계적 유의성]]을 과대평가하는 오류를 범할 수 있다. 이러한 한계를 극복하기 위해 분산 구조를 보다 유연하게 설정한 [[음이항 회귀]](Negative Binomial Regression) 모델이나, | ||
| + | |||
| + | 포아송 회귀 분석은 다양한 실증 연구 분야에서 필수적인 도구로 활용된다. [[역학]](Epidemiology)에서는 특정 기간 내 희귀 질병의 발병 건수를 분석하거나 환경 요인에 따른 사망률 변화를 규명하는 데 사용된다. [[보험계리법]](Actuarial Science)에서는 가입자별 사고 발생 횟수를 예측하여 위험률을 산정하고 적정 보험료를 결정하는 기초 모델로 기능한다. 또한 [[사회과학]] 분야에서는 특정 개인의 범죄 횟수, 특허 출원 수, 혹은 정치적 사건의 발생 빈도와 같은 비연속적 계수 데이터를 분석하여 변수 간의 인과 관계를 정량적으로 설명하는 데 기여하고 있다. | ||
| ==== 정규화 회귀 방법론 ==== | ==== 정규화 회귀 방법론 ==== | ||