차이

문서의 선택한 두 판 사이의 차이를 보여줍니다.

--- 회귀_분석 [2026/04/13 14:34] – 회귀 분석 sync flyingtext
+++ 회귀_분석 [2026/04/13 14:34] (현재) – 회귀 분석 sync flyingtext
@@ 줄 205: / 줄 205: @@
 === 편회귀 계수의 해석 ===
-다른 변수가 통제된 상태에서 특정 변수가 갖는 고유한 영향력을 해석하는 방법을 다룬다.
+[[다중 선형 회귀]] 모델에서 각 독립 변수의 계수는 해당 변수가 [[종속 변수]]에 미치는 고유한 영향력을 나타내며, 이를 **편회귀 계수**(Partial Regression Coefficient)라고 정의한다. 일반적인 다중 회귀 식을 다음과 같이 상정할 때,
+$ Y = _0 + _1 X_1 + _2 X_2 + + _k X_k + $
+여기서 임의의 계수 $ _j $는 다른 모든 독립 변수 $ {X_1, , X_k} {X_j} $의 값이 일정하게 유지된다는 전제하에, $ X_j $가 한 단위 증가할 때 기대되는 $ Y $의 평균적인 변화량을 의미한다. 이러한 해석 방식을 경제학적 용어로 **세테리스 파리부스**(Ceteris Paribus), 즉 ’다른 모든 조건이 동일하다면’이라는 원칙에 따른 해석이라 한다. 이는 [[단순 선형 회귀]]에서의 계수가 변수 간의 단순한 상관관계를 포괄하는 것과 달리, 다중 회귀에서는 변수 간의 복잡한 연관성을 통계적으로 분리하여 특정 변수만의 순수한 기여도를 추출하려 시도함을 보여준다.
+편회귀 계수의 수학적 본질은 [[프리슈-워-로벨 정리]](Frisch-Waugh-Lovell Theorem)를 통해 명확히 이해될 수 있다((Frisch, R., & Waugh, F. V. (1933). Partial Time Regressions as Compared with Individual Trends. Econometrica, 1(4), 387-401. http://www.jstor.org/stable/1907330
+)). 이 정리에 따르면, 특정 독립 변수 $ X_j $의 계수 $ _j $를 구하는 과정은 두 단계의 보조 회귀로 환원될 수 있다. 먼저 $ Y $를 $ X_j $를 제외한 나머지 모든 독립 변수들에 대해 회귀 분석하여 그 [[잔차]](Residual)를 구하고, 다시 $ X_j $를 동일한 나머지 변수들에 대해 회귀 분석하여 그 잔차를 구한다. 이때 두 잔차 사이의 관계를 분석하여 얻은 계수는 원래의 다중 회귀 모델에서 얻은 $ _j $와 수치적으로 일치한다. 이는 편회귀 계수가 단순히 $ X_j $와 $ Y $의 관계를 보는 것이 아니라, 다른 변수들에 의해 설명되는 부분을 모두 제거(Partialling out)하고 남은 ’순수한 변동분’들 사이의 관계를 정량화한 것임을 시사한다.
+이러한 특성 때문에 편회귀 계수는 독립 변수들 사이에 상관관계가 존재할 때 매우 중요한 의미를 갖는다. 만약 중요한 독립 변수가 모델에서 누락된다면, 포함된 변수의 계수는 누락된 변수의 영향력까지 흡수하여 왜곡될 수 있는데 이를 [[누락 변수 편향]](Omitted Variable Bias)이라 한다. 편회귀 계수는 관련 변수들을 모델에 포함함으로써 이러한 편향을 통제하고, 각 요인의 개별적 영향력을 분리해내는 역할을 수행한다. 그러나 독립 변수들 사이의 상관관계가 극도로 높은 [[다중 공선성]](Multicollinearity)이 존재할 경우, 특정 변수의 영향력을 고립시켜 추정하는 과정에서 계수의 [[분산]]이 커지고 해석의 신뢰성이 저하될 수 있다는 점에 유의해야 한다.
+마지막으로 편회귀 계수의 크기 자체를 변수 간 영향력의 상대적 중요도로 직접 비교하기는 어렵다. 각 변수는 서로 다른 측정 단위를 가질 수 있기 때문이다. 예를 들어 소득(원)과 교육 연수(년)의 계수를 단순 비교하는 것은 무의미하다. 따라서 변수 간 상대적 기여도를 비교하기 위해서는 각 변수를 표준편차 단위로 변환하여 산출한 [[표준화 회귀 계수]](Standardized Regression Coefficient)를 활용하는 것이 일반적이다. 또한, 편회귀 계수가 통계적으로 유의미하더라도 이는 수치적인 연관성을 나타낼 뿐이며, 엄밀한 의미의 [[인과 관계]](Causality)를 확립하기 위해서는 연구 설계 단계에서의 이론적 타당성과 [[내생성]](Endogeneity) 문제에 대한 면밀한 검토가 병행되어야 한다.
 === 다중 공선성 문제 ===
@@ 줄 272: / 줄 283: @@
 === 선형성 및 독립성 검정 ===
-변수 간의 선형 관계와 오차항의 독립적 분포 여부를 확인하는 절차를 설명한다.
+[[선형 회귀 모델]](Linear Regression Model)이 정당성을 갖기 위한 가장 근본적인 전제는 [[독립 변수]](Independent Variable)와 [[종속 변수]](Dependent Variable) 사이의 관계가 선형적이어야 한다는 [[선형성]](Linearity) 가정이다. 선형성 가정이 위배될 경우, 모델은 데이터의 체계적인 패턴을 포착하지 못하여 [[편향]](Bias)된 추정치를 산출하게 된다. 이를 검증하는 가장 직관적인 방법은 잔차 산점도(Residual Plot)를 분석하는 것이다. 가로축에 모델의 예측값($  $)을, 세로축에 [[잔차]](Residual, $ e $)를 배치하여 시각화했을 때, 잔차들이 특정 경향성 없이 무작위로 분포해야 선형성 가정이 충족된 것으로 간주한다. 만약 잔차의 분포가 곡선 형태를 띠거나 특정 방향으로 치우친다면, 이는 변수 간의 관계가 비선형적이거나 모델에 고차항 또는 [[상호작용항]](Interaction Term)이 누락되었음을 시사한다. 보다 엄밀한 통계적 검정으로는 [[램지의 RESET 검정]](Ramsey’s Regression Equation Specification Error Test, RESET)이 활용될 수 있는데, 이는 독립 변수의 고차항을 모델에 추가하여 그 유의성을 검토함으로써 모델의 설정 오류(Specification Error)를 탐지한다.
+오차항의 [[독립성]](Independence) 검정은 관측치 간의 오차가 서로 상관되어 있지 않아야 한다는 가정을 확인하는 절차이다. 특히 데이터가 시간의 흐름에 따라 수집되는 [[시계열 분석]](Time Series Analysis) 환경에서 이 가정의 충족 여부는 매우 중요하다. 오차항 사이에 상관관계가 존재하는 [[자기상관]](Autocorrelation) 현상이 발생하면, [[최소제곱법]](Ordinary Least Squares, OLS)으로 추정된 회귀 계수의 [[분산]]이 과소 추정되어 통계적 유의성 검정의 신뢰도가 하락하게 된다. 독립성을 검정하기 위해 널리 사용되는 지표는 [[더빈-왓슨 검정]](Durbin-Watson test)이다. 더빈-왓슨 통계량 $ d $는 다음과 같이 정의된다.
+$$ d = \frac{\sum_{t=2}^n (e_t - e_{t-1})^2}{\sum_{t=1}^n e_t^2} $$
+여기서 $ e_t $는 $ t $ 시점에서의 잔차를 의미한다. 통계량 $ d $는 0에서 4 사이의 값을 가지며, 일반적으로 2에 가까울수록 오차항 간의 자기상관이 없는 독립적인 상태로 해석한다. $ d $값이 0에 가까우면 양의 자기상관이, 4에 가까우면 음의 자기상관이 존재함을 뜻한다.
+독립성 가정을 위반하는 주요 원인 중 하나는 모델에서 중요한 설명 변수가 누락되었거나 시계열 데이터 고유의 [[추세]](Trend) 및 [[계절성]](Seasonality)이 적절히 통제되지 않았기 때문이다. 이를 보완하기 위해 [[일반화 최소제곱법]](Generalized Least Squares, GLS)이나 [[자기회귀 모델]](Autoregressive Model) 등의 확장된 방법론이 동원되기도 한다. 선형성과 독립성에 대한 종합적인 진단은 모델의 예측 성능을 보장할 뿐만 아니라, 회귀 계수의 통계적 추론이 유효하기 위한 필수적인 단계이다. 이러한 가정들이 충족되지 않은 상태에서 도출된 결론은 데이터의 본질적인 구조를 왜곡할 위험이 크므로, 분석가는 잔차 분석을 통해 모델의 적합성을 끊임없이 재고해야 한다.((Global Validation of Linear Model Assumptions, https://ncbi.nlm.nih.gov/pmc/articles/PMC2820257/pdf/nihms2365.xml.fixed.pdf
+))
 === 등분산성 및 정규성 검정 ===
-오차항의 분산이 일정하고 정규 분포를 따르는지 확인하는 기법을 기술한다.
+[[선형 회귀 모델]]의 유효성을 보장하기 위해 반드시 검증해야 하는 핵심 가정 중 하나는 [[오차항]](Error term)의 [[등분산성]](Homoscedasticity)이다. 등분산성이란 모든 독립 변수 값에 대하여 오차항의 [[분산]]이 일정한 상수를 유지해야 함을 의미한다. 만약 오차항의 분산이 독립 변수의 크기나 특정 조건에 따라 변화한다면 이를 [[이분산성]](Heteroscedasticity)이라 한다. 이분산성이 존재할 경우, [[최소제곱법]](Ordinary Least Squares, OLS)을 통해 얻은 회귀 계수 추정량은 여전히 [[불편성]](Unbiasedness)을 유지하지만, 더 이상 [[가우스 마르코프 정리]]가 보장하는 [[최선 선형 불편 추정량]](Best Linear Unbiased Estimator, BLUE)이 되지 못한다. 즉, 추정량의 효율성이 상실되어 표준 오차가 왜곡되며, 결과적으로 $ t $ 검정이나 $ F $ 검정과 같은 [[가설 검정]]의 신뢰도가 저하된다.
+등분산성을 진단하는 가장 직관적인 방법은 [[잔차]](Residual)를 활용한 시각적 분석이다. 일반적으로 가로축에 독립 변수나 예측값($  $)을 두고 세로축에 잔차를 배치한 잔차 산점도를 작성한다. 등분산 가정이 충족된다면 잔차들은 특정 패턴 없이 무작위로 분포해야 하며, 만약 잔차의 폭이 나팔 모양으로 넓어지거나 좁아지는 형태를 보인다면 이분산성을 의심할 수 있다. 보다 정밀한 통계적 검정을 위해서는 [[브로이슈-패건 검정]](Breusch-Pagan test)이나 [[화이트 검정]](White test)이 주로 사용된다. 브로이슈-패건 검정은 잔차의 제곱을 종속 변수로 하고 독립 변수들을 설명 변수로 하는 보조 회귀식을 구성하여 분산의 변동성을 확인한다.((A Simple Test for Heteroscedasticity and Random Coefficient Variation, https://econpapers.repec.org/RePEc:ecm:emetrp:v:47:y:1979:i:5:p:1287-94
+)) 화이트 검정은 이보다 일반적인 형태로, 독립 변수들의 제곱항과 상호작용항까지 고려하여 비선형적인 이분산성 패턴까지 포착할 수 있는 장점이 있다.((A Heteroskedasticity-Consistent Covariance Matrix Estimator and a Direct Test for Heteroskedasticity, https://ideas.repec.org/a/ecm/emetrp/v48y1980i4p817-38.html
+))
+오차항의 [[정규성]](Normality) 가정은 회귀 모델의 모수적 추론을 위해 필수적이다. 고전적 선형 회귀 모델에서는 오차항이 평균이 0이고 분산이 $ ^2 $인 [[정규 분포]]를 따른다고 가정한다. 이러한 가정이 충족될 때, 표본의 크기가 작더라도 회귀 계수 추정량의 분포가 정규성을 띠게 되어 정확한 [[신뢰 구간]] 산출과 유의성 검정이 가능해진다. 대규모 표본의 경우 [[중심 극한 정리]]에 의해 추정량이 점근적으로 정규성을 갖게 되나, 소규모 표본 연구나 정밀한 예측 모델링에서는 정규성 위배가 모델의 강건성을 크게 해칠 수 있다.
+정규성을 검정하기 위한 시각적 도구로는 [[Q-Q 플롯]](Quantile-Quantile Plot)이 대표적이다. 이는 이론적 정규 분포의 분위수와 실제 잔차의 분위수를 대응시킨 도표로, 잔차들이 직선상에 위치할수록 정규성 가정을 잘 만족하는 것으로 해석한다. 수치적 검정 방법으로는 [[샤피로-윌크 검정]](Shapiro-Wilk test)과 [[자크-베라 검정]](Jarque-Bera test)이 널리 활용된다. 특히 자크-베라 검정은 분포의 [[왜도]](Skewness)와 [[첨도]](Kurtosis)가 정규 분포의 특성(왜도 0, 첨도 3)에서 얼마나 벗어나 있는지를 기초로 검정 통계량을 산출한다.((A Test for Normality of Observations and Regression Residuals, https://www.jstor.org/stable/1403192
+)) 만약 정규성 가정이 위배되었다면, 변수 변환(Transformation) 기법을 적용하거나 [[일반화 선형 모델]] 등 비모수적 혹은 준모수적 대안을 고려해야 한다.
 ===== 확장된 회귀 모델 =====
@@ 줄 328: / 줄 357: @@
 === 포아송 회귀 분석 ===
-단위 시간이나 공간 내에서 발생하는 사건의 횟수를 분석하는 모델을 소개한다.
+포아송 회귀 분석(Poisson Regression Analysis)은 종속 변수가 특정 단위 시간, 공간, 혹은 정해진 구역 내에서 발생하는 사건의 횟수, 즉 [[계수 데이터]](Count Data)일 때 적용하는 [[일반화 선형 모델]](Generalized Linear Model, GLM)의 특수한 형태이다. 고전적인 [[선형 회귀]] 모델은 종속 변수가 연속형 변수이며 [[정규 분포]]를 따른다는 가정을 전제로 하지만, 사건의 발생 횟수는 0 이상의 정수값만을 가지며 분포가 오른쪽으로 긴 꼬리를 갖는 비대칭적 형태를 띠는 경우가 많다. 이러한 데이터에 선형 모델을 직접 적용하면 예측값이 음수로 산출되는 논리적 모순이 발생할 수 있으며, 평균이 증가함에 따라 분산도 함께 증가하는 계수 데이터의 특성으로 인해 [[등분산성]] 가정이 위배되는 문제가 발생한다. 포아송 회귀 분석은 이러한 계수 데이터의 통계적 특성을 엄밀하게 반영하기 위해 고안되었다.
+포아송 회귀 분석의 수리적 기초는 종속 변수 $ Y $가 평균 $ $를 모수로 갖는 [[포아송 분포]](Poisson Distribution)를 따른다는 가정에 있다. 포아송 분포의 확률질량함수는 다음과 같이 정의된다.
+$$ P(Y=y) = \frac{e^{-\lambda} \lambda^y}{y!}, \quad y = 0, 1, 2, \dots $$
+여기서 $ $는 해당 단위 구간 내에서 기대되는 사건의 발생 횟수를 의미한다. 일반화 선형 모델의 틀 안에서 포아송 회귀는 [[로그 연결 함수]](Log Link Function)를 사용하여 독립 변수들의 선형 결합과 기대값 $ $ 사이의 관계를 설정한다. 모델의 기본 구조는 다음과 같다.
+$$ \ln(\lambda) = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_k X_k = \mathbf{x}^T \mathbf{\beta} $$
+위 식을 $ $에 대해 정리하면 기대값은 독립 변수의 지수 함수 형태로 표현된다.
+$$ \lambda = \exp(\beta_0 + \beta_1 X_1 + \dots + \beta_k X_k) = e^{\mathbf{x}^T \mathbf{\beta}} $$
+이러한 지수적 구조는 독립 변수의 값에 관계없이 기대값 $ $가 항상 0보다 큰 양의 값을 유지하도록 보장함으로써, 선형 회귀 모델이 가질 수 있는 수치적 한계를 극복한다. 모델의 파라미터인 [[회귀 계수]] $ $는 일반적으로 [[최대우도법]](Maximum Likelihood Estimation, MLE)을 통해 추정되며, 이는 관측된 데이터가 발생할 확률을 최대화하는 계수 값을 찾는 수치적 최적화 과정을 거친다.
+포아송 회귀 모델에서 계수의 해석은 선형 회귀와 달리 곱셈적(multiplicative) 성격을 지닌다. 특정 독립 변수 $ X_j $가 1단위 증가할 때, 다른 모든 변수가 일정하다면 사건의 기대 발생 횟수 $ $는 $ e^{_j} $배 변화한다. 이를 [[발생률비]](Incidence Rate Ratio, IRR)라고 하며, 특정 요인이 사건 발생 빈도에 미치는 상대적인 영향력을 파악하는 지표로 활용된다. 또한, 관측 단위마다 노출 시간이나 면적이 서로 다를 경우 이를 보정하기 위해 [[오프셋]](Offset) 변수를 도입한다. 로그 변환된 노출량을 모델의 우변에 계수가 1인 항으로 추가함으로써, 서로 다른 관측 조건하에서도 단위 노출당 발생률을 객관적으로 비교할 수 있게 된다.
+포아송 회귀 모델을 적용할 때 반드시 검토해야 할 중요한 가정 중 하나는 평균과 분산이 동일하다는 [[등분산성]](Equidispersion) 가정이다. 즉, 포아송 분포의 성질에 따라 $ E(Y) = Var(Y) = $가 성립해야 한다. 그러나 실제 응용 분야에서는 관측된 데이터의 분산이 평균보다 훨씬 크게 나타나는 [[과분산]](Overdispersion) 현상이 빈번하게 관측된다. 만약 과분산이 존재하는 데이터에 표준적인 포아송 회귀를 적용할 경우, 계수의 표준오차가 실제보다 작게 추정되어 [[통계적 유의성]]을 과대평가하는 오류를 범할 수 있다. 이러한 한계를 극복하기 위해 분산 구조를 보다 유연하게 설정한 [[음이항 회귀]](Negative Binomial Regression) 모델이나, 0의 빈도가 이론적 예측보다 과도하게 많은 경우를 처리하기 위한 [[영과잉 모델]](Zero-inflated Model) 등의 확장된 방법론이 사용된다.
+포아송 회귀 분석은 다양한 실증 연구 분야에서 필수적인 도구로 활용된다. [[역학]](Epidemiology)에서는 특정 기간 내 희귀 질병의 발병 건수를 분석하거나 환경 요인에 따른 사망률 변화를 규명하는 데 사용된다. [[보험계리법]](Actuarial Science)에서는 가입자별 사고 발생 횟수를 예측하여 위험률을 산정하고 적정 보험료를 결정하는 기초 모델로 기능한다. 또한 [[사회과학]] 분야에서는 특정 개인의 범죄 횟수, 특허 출원 수, 혹은 정치적 사건의 발생 빈도와 같은 비연속적 계수 데이터를 분석하여 변수 간의 인과 관계를 정량적으로 설명하는 데 기여하고 있다.
 ==== 정규화 회귀 방법론 ====

SethQ Wiki

사용자 도구

사이트 도구

차이

문서 도구