문서의 선택한 두 판 사이의 차이를 보여줍니다.
| 양쪽 이전 판이전 판다음 판 | 이전 판 | ||
| 회귀_분석 [2026/04/13 14:32] – 회귀 분석 sync flyingtext | 회귀_분석 [2026/04/13 14:34] (현재) – 회귀 분석 sync flyingtext | ||
|---|---|---|---|
| 줄 142: | 줄 142: | ||
| === 회귀 계수의 추정 === | === 회귀 계수의 추정 === | ||
| - | 표본 데이터를 바탕으로 모수를 | + | 회귀 분석의 일차적인 목적은 표본 데이터를 통해 모집단의 특성을 나타내는 [[모수]](parameter)를 객관적으로 추정하는 것이다. 단순 선형 회귀 모델에서 추정하고자 하는 대상은 회귀 직선의 절편인 $ _0 $와 기울기인 $ _1 $이다. 실제 연구 상황에서는 모집단 전체를 전수 조사하는 것이 불가능하므로, |
| + | |||
| + | 최소제곱법은 관측값 $ Y_i $와 모델에 의해 예측된 값 $ _i $ 사이의 차이인 [[잔차]](residual)의 제곱합을 최소화하는 계수를 | ||
| + | |||
| + | $$ S(\beta_0, \beta_1) = \sum_{i=1}^{n} (Y_i - \hat{Y}_i)^2 = \sum_{i=1}^{n} (Y_i - \beta_0 - \beta_1 X_i)^2 $$ | ||
| + | |||
| + | 이 함수 $ S $를 최소화하는 | ||
| + | |||
| + | $$ \hat{\beta}_1 = \frac{\sum_{i=1}^{n} (X_i - \bar{X})(Y_i - \bar{Y})}{\sum_{i=1}^{n} (X_i - \bar{X})^2} $$ $$ \hat{\beta}_0 = \bar{Y} - \hat{\beta}_1 \bar{X} $$ | ||
| + | |||
| + | 여기서 $ {X} $와 $ {Y} $는 각각 독립 변수와 종속 변수의 표본 평균을 의미한다. 추정된 기울기 $ _1 $은 독립 변수 $ X $가 한 단위 변화할 때 종속 변수 $ Y $가 평균적으로 얼마나 변화하는지를 나타내며, | ||
| + | |||
| + | 이렇게 도출된 최소제곱 추정량은 몇 가지 중요한 | ||
| + | |||
| + | 둘째, [[가우스-마르코프 정리]](Gauss-Markov Theorem)에 의한 효율성이다. 오차항이 서로 독립이며 등분산성을 가진다는 가정하에, | ||
| + | |||
| + | 마지막으로 추정량의 분산과 [[표준 오차]](standard error)에 관한 고찰이 필요하다. 추정된 회귀 계수의 불확실성을 측정하기 위해 오차항의 분산 $ ^2 $을 추정해야 하는데, 이는 잔차 제곱합을 자유도 $ n-2 $로 나눈 [[표본 분산]] $ ^2 $을 통해 계산된다. 회귀 계수의 표준 오차는 계수의 유의성을 검정하는 [[가설 검정]]과 [[신뢰 구간]](confidence interval) 산출의 기초 자료로 활용된다. 결과적으로 회귀 계수의 추정은 단순한 수치 계산을 넘어, 데이터 내재적 변동성을 고려하여 모수의 참값에 대한 최적의 통계적 판단을 내리는 과정이라 할 수 있다. | ||
| === 적합도와 결정 계수 === | === 적합도와 결정 계수 === | ||
| - | 도출된 | + | [[회귀 |
| + | |||
| + | [[관측값]] $ Y_i $의 전체 변동을 이해하기 위해 통계학에서는 총 제곱합(Total Sum of Squares, SST)의 개념을 사용한다. 총 제곱합은 개별 관측값이 [[산술 평균]]으로부터 떨어진 거리의 제곱 총합으로, | ||
| + | |||
| + | $$ SST = SSR + SSE $$ | ||
| + | |||
| + | $$ \sum_{i=1}^{n} (Y_i - \bar{Y})^2 = \sum_{i=1}^{n} (\hat{Y}_i - \bar{Y})^2 + \sum_{i=1}^{n} (Y_i - \hat{Y}_i)^2 $$ | ||
| + | |||
| + | 결정 계수 $ R^2 $은 총 제곱합에서 회귀 제곱합이 차지하는 비율로 정의된다. 이는 $ 0 $과 $ 1 $ 사이의 값을 가지며, $ 1 $에 가까울수록 회귀 모델의 설명력이 높음을 의미한다. 수식으로는 다음과 같이 나타낼 수 있다. | ||
| + | |||
| + | $$ R^2 = \frac{SSR}{SST} = 1 - \frac{SSE}{SST} $$ | ||
| + | |||
| + | 단순 선형 회귀 분석에서 결정 계수는 독립 변수와 종속 변수 간의 [[상관계수]]를 제곱한 값과 동일한 수치적 특성을 갖는다. 그러나 결정 계수를 해석할 때는 주의가 필요하다. $ R^2 $은 모델에 포함된 독립 변수의 수가 늘어날수록, | ||
| + | |||
| + | 이러한 한계를 보완하기 위해 도입된 지표가 [[수정된 결정 계수]](Adjusted R-squared)이다. 수정된 결정 계수는 각 제곱합을 해당 [[자유도]](Degrees of Freedom)로 나누어 표본 크기와 독립 변수의 개수를 동시에 고려한다. 이는 불필요한 독립 변수가 추가될 때 모델에 가해지는 벌점(Penalty) 역할을 수행하여, | ||
| + | |||
| + | $$ \bar{R}^2 = 1 - \left[ \frac{(1 - R^2)(n - 1)}{n - k - 1} \right] $$ | ||
| + | |||
| + | 여기서 $ n $은 표본의 크기이며, | ||
| ==== 다중 선형 회귀 분석 ==== | ==== 다중 선형 회귀 분석 ==== | ||
| - | 두 개 이상의 독립 변수가 종속 변수에 미치는 영향을 동시에 분석하는 확장된 모델을 다룬다. | + | [[다중 선형 회귀 분석]](Multiple Linear Regression Analysis)은 하나의 [[종속 변수]]와 |
| + | |||
| + | 다중 선형 회귀 모델의 수학적 구조는 다음과 같이 정의된다. $ k $개의 독립 변수 $ X_1, X_2, , X_k $가 존재할 때, 종속 변수 $ Y $와의 관계는 다음과 같은 선형 방정식으로 표현된다. | ||
| + | |||
| + | $$ Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_k X_k + \epsilon $$ | ||
| + | |||
| + | 여기서 $ _0 $는 절편(intercept)이며, | ||
| + | |||
| + | 모델의 모수인 회귀 계수를 추정하기 위해 가장 널리 사용되는 방법은 [[최소제곱법]](Ordinary Least Squares, OLS)이다. 이는 실제 관측값과 모델에 의한 예측값의 차이인 [[잔차]](residual)의 제곱합을 최소화하는 계수를 찾는 과정이다. 행렬 연산을 통해 도출되는 회귀 계수의 추정량 $ $는 다음과 같은 정규 방정식(normal equation)의 해로 구해진다. | ||
| + | |||
| + | $$ \hat{\boldsymbol{\beta}} = (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \mathbf{y} $$ | ||
| + | |||
| + | 이때 독립 변수들 사이에 완전한 선형 관계가 존재하지 않아야 하며, 행렬 $ ^T $의 역행렬이 존재해야 한다는 조건이 충족되어야 한다. 만약 독립 변수 간에 강한 상관관계가 존재할 경우 [[다중 공선성]](multicollinearity) 문제가 발생하여 추정량의 분산이 커지고 모델의 신뢰성이 저하될 수 있다. | ||
| + | |||
| + | 다중 회귀 분석에서 회귀 계수의 해석은 단순 회귀 분석과 차별화된다. 특정 독립 변수 $ X_j $의 계수인 $ _j $는 다른 모든 독립 변수의 값이 고정되어 있다는 전제하에(ceteris paribus), $ X_j $가 1단위 증가할 때 종속 변수 $ Y $가 평균적으로 변화하는 양을 나타낸다. 이를 [[편회귀 계수]](partial regression coefficient)라고 부르며, 이는 단순히 두 변수 사이의 상관관계가 아니라 다른 변수들의 영향을 배제한 상태에서의 순수한 영향력을 의미한다. | ||
| + | |||
| + | 모델의 전체적인 유의성을 검정하기 위해서는 [[F-검정]](F-test)을 사용한다. 이는 모든 회귀 계수가 0이라는 [[귀무 가설]]을 설정하고, | ||
| + | )) | ||
| === 편회귀 계수의 해석 === | === 편회귀 계수의 해석 === | ||
| - | 다른 변수가 | + | [[다중 선형 회귀]] 모델에서 각 독립 변수의 계수는 해당 변수가 [[종속 변수]]에 미치는 고유한 영향력을 나타내며, |
| + | |||
| + | $ Y = _0 + _1 X_1 + _2 X_2 + + _k X_k + $ | ||
| + | |||
| + | 여기서 임의의 계수 $ _j $는 다른 | ||
| + | |||
| + | 편회귀 계수의 수학적 본질은 [[프리슈-워-로벨 정리]](Frisch-Waugh-Lovell Theorem)를 통해 명확히 이해될 수 있다((Frisch, | ||
| + | )). 이 정리에 따르면, 특정 독립 변수 $ X_j $의 계수 $ _j $를 구하는 과정은 두 단계의 보조 회귀로 환원될 수 있다. 먼저 $ Y $를 $ X_j $를 제외한 나머지 모든 독립 변수들에 대해 회귀 분석하여 그 [[잔차]](Residual)를 구하고, 다시 $ X_j $를 동일한 나머지 변수들에 대해 회귀 분석하여 그 잔차를 구한다. 이때 두 잔차 사이의 관계를 분석하여 얻은 계수는 원래의 다중 회귀 모델에서 얻은 $ _j $와 수치적으로 일치한다. 이는 편회귀 계수가 | ||
| + | |||
| + | 이러한 특성 때문에 편회귀 계수는 독립 변수들 사이에 상관관계가 존재할 때 매우 중요한 의미를 | ||
| + | |||
| + | 마지막으로 편회귀 계수의 크기 자체를 변수 간 영향력의 상대적 중요도로 직접 비교하기는 어렵다. 각 변수는 서로 다른 측정 단위를 가질 수 있기 때문이다. 예를 들어 소득(원)과 교육 연수(년)의 계수를 단순 비교하는 것은 무의미하다. 따라서 변수 간 상대적 기여도를 비교하기 위해서는 각 변수를 표준편차 단위로 변환하여 산출한 [[표준화 회귀 계수]](Standardized Regression Coefficient)를 활용하는 것이 일반적이다. 또한, 편회귀 계수가 통계적으로 유의미하더라도 이는 수치적인 연관성을 나타낼 뿐이며, 엄밀한 의미의 [[인과 관계]](Causality)를 확립하기 위해서는 연구 설계 단계에서의 이론적 타당성과 [[내생성]](Endogeneity) 문제에 대한 면밀한 검토가 병행되어야 한다. | ||
| === 다중 공선성 문제 === | === 다중 공선성 문제 === | ||
| - | 독립 변수 | + | [[다중 선형 회귀 분석]](Multiple Linear Regression Analysis)에서 [[독립 변수]](Independent Variable)들 사이에 |
| + | |||
| + | 행렬 대수학적 관점에서 살펴보면, | ||
| + | |||
| + | $$ Var(\hat{\beta}_j) = \frac{\sigma^2}{\sum (X_{ij} - \bar{X}_j)^2} \cdot \frac{1}{1 - R_j^2} $$ | ||
| + | |||
| + | 위 식에서 $ R_j^2 $는 해당 독립 변수 $ X_j $를 나머지 독립 변수들에 대해 회귀 분석하였을 때 얻어지는 [[결정 계수]]이다. $ R_j^2 $의 값이 1에 가까워질수록 분산은 무한히 커지게 된다. 이러한 분산의 증가는 개별 회귀 계수의 [[표준 오차]](Standard Error)를 증대시켜 [[t-검정]] 통계량을 낮추는 결과를 낳는다. 이로 인해 실제로는 종속 변수에 유의미한 영향을 | ||
| + | |||
| + | 다중 공선성이 발생했을 때 나타나는 전형적인 징후 중 하나는 모델 전체의 유의성을 나타내는 [[F-검정]] 결과는 매우 유의미하고 결정 계수도 높게 나타나지만, | ||
| + | |||
| + | 다중 공선성을 진단하기 위해 가장 널리 사용되는 지표는 [[분산 팽창 지수]](Variance Inflation Factor, VIF)이다. VIF는 앞서 언급한 분산 공식의 비례 인자인 $ 1 / (1 - R_j^2) $로 정의된다. 통상적으로 VIF 값이 10을 초과하면 해당 변수에 심각한 다중 공선성 문제가 있는 것으로 간주하며, | ||
| + | |||
| + | 이러한 문제를 | ||
| ===== 모델의 가정과 진단 ===== | ===== 모델의 가정과 진단 ===== | ||
| 줄 182: | 줄 256: | ||
| ==== 가우스 마르코프 정리 ==== | ==== 가우스 마르코프 정리 ==== | ||
| - | 최소제곱 추정량이 최선 선형 불편 추정량이 | + | 가우스 마르코프 정리(Gauss-Markov Theorem)는 [[선형 회귀 모델]](Linear Regression Model)에서 [[최소제곱법]](Ordinary Least Squares, OLS)을 통해 도출한 |
| + | |||
| + | OLS 추정량이 최선 선형 불편 추정량으로서의 지위를 갖기 위해서는 다섯 가지의 고전적 가정이 전제되어야 | ||
| + | |||
| + | 이러한 가정들이 충족될 때 OLS 추정량 $ $가 갖는 BLUE로서의 성질은 다음과 같이 정의된다. 우선 선형성(Linear)은 추정량 $ $가 종속 변수 $ Y $의 선형 결합으로 표현될 수 있음을 의미한다. 불편성(Unbiased)은 추정량의 기댓값이 실제 모수의 값과 일치함, 즉 $ E() = $를 만족하여 | ||
| + | |||
| + | $$ Var(\hat{\beta}) \leq Var(\tilde{\beta}) $$ | ||
| + | |||
| + | 주목할 점은 가우스 마르코프 정리가 성립하기 위해 오차항이 반드시 [[정규 분포]](Normal Distribution)를 따를 필요는 없다는 것이다. 오차항의 분포에 대한 가정 없이도 상기된 기본 가정들만 충족된다면 OLS 추정량은 선형 추정량의 범주 안에서 최소 분산을 보장받는다. 그러나 만약 등분산성 가정이 위배되어 [[이분산성]](Heteroscedasticity)이 나타나거나 오차항 간에 자기상관이 존재할 경우, OLS 추정량은 여전히 불편 추정량일 수는 있으나 더 이상 최선(Best)의 성질을 유지하지 못하게 된다. 이러한 상황에서는 [[일반화 최소제곱법]](Generalized Least Squares, GLS)과 같은 대안적 추정 기법이 요구된다. 최근의 연구는 이러한 고전적 정리를 현대적인 고차원 데이터 환경이나 완화된 가정 하에서도 적용할 수 있도록 확장하는 방향으로 전개되고 있다((A Modern Gauss–Markov Theorem, https:// | ||
| + | )). | ||
| ==== 잔차 분석 ==== | ==== 잔차 분석 ==== | ||
| 줄 200: | 줄 283: | ||
| === 선형성 및 독립성 검정 === | === 선형성 및 독립성 검정 === | ||
| - | 변수 간의 선형 관계와 오차항의 독립적 분포 | + | [[선형 회귀 모델]](Linear Regression Model)이 정당성을 갖기 위한 가장 근본적인 전제는 [[독립 |
| + | |||
| + | 오차항의 [[독립성]](Independence) 검정은 관측치 간의 오차가 서로 상관되어 있지 않아야 한다는 가정을 | ||
| + | |||
| + | $$ d = \frac{\sum_{t=2}^n (e_t - e_{t-1})^2}{\sum_{t=1}^n e_t^2} $$ | ||
| + | |||
| + | 여기서 $ e_t $는 $ t $ 시점에서의 잔차를 | ||
| + | |||
| + | 독립성 가정을 위반하는 주요 원인 중 하나는 모델에서 중요한 | ||
| + | )) | ||
| === 등분산성 및 정규성 검정 === | === 등분산성 및 정규성 검정 === | ||
| - | 오차항의 분산이 일정하고 정규 분포를 | + | [[선형 회귀 모델]]의 유효성을 보장하기 위해 반드시 검증해야 하는 핵심 가정 중 하나는 [[오차항]](Error term)의 [[등분산성]](Homoscedasticity)이다. 등분산성이란 모든 독립 변수 값에 대하여 오차항의 [[분산]]이 일정한 상수를 유지해야 함을 의미한다. 만약 오차항의 분산이 독립 변수의 크기나 특정 조건에 따라 변화한다면 이를 [[이분산성]](Heteroscedasticity)이라 한다. 이분산성이 존재할 경우, [[최소제곱법]](Ordinary Least Squares, OLS)을 통해 얻은 회귀 계수 추정량은 여전히 [[불편성]](Unbiasedness)을 유지하지만, 더 이상 [[가우스 마르코프 정리]]가 보장하는 [[최선 선형 불편 추정량]](Best Linear Unbiased Estimator, BLUE)이 되지 못한다. 즉, 추정량의 효율성이 상실되어 표준 오차가 왜곡되며, |
| + | |||
| + | 등분산성을 진단하는 가장 직관적인 방법은 [[잔차]](Residual)를 활용한 시각적 분석이다. 일반적으로 가로축에 독립 변수나 예측값($ | ||
| + | )) 화이트 검정은 이보다 일반적인 형태로, 독립 변수들의 제곱항과 상호작용항까지 고려하여 비선형적인 이분산성 패턴까지 포착할 수 있는 장점이 있다.((A Heteroskedasticity-Consistent Covariance Matrix Estimator and a Direct Test for Heteroskedasticity, | ||
| + | )) | ||
| + | |||
| + | 오차항의 [[정규성]](Normality) 가정은 회귀 모델의 모수적 추론을 위해 필수적이다. 고전적 선형 회귀 모델에서는 오차항이 평균이 0이고 분산이 $ ^2 $인 [[정규 분포]]를 따른다고 가정한다. 이러한 가정이 충족될 때, 표본의 크기가 작더라도 회귀 계수 추정량의 분포가 정규성을 띠게 되어 정확한 [[신뢰 구간]] 산출과 유의성 검정이 가능해진다. 대규모 표본의 경우 [[중심 극한 정리]]에 의해 추정량이 점근적으로 정규성을 갖게 되나, 소규모 표본 연구나 정밀한 예측 모델링에서는 정규성 위배가 모델의 강건성을 크게 해칠 수 있다. | ||
| + | |||
| + | 정규성을 검정하기 위한 시각적 도구로는 [[Q-Q 플롯]](Quantile-Quantile Plot)이 대표적이다. 이는 이론적 정규 분포의 분위수와 실제 잔차의 분위수를 대응시킨 도표로, 잔차들이 직선상에 위치할수록 정규성 가정을 잘 만족하는 것으로 해석한다. 수치적 검정 방법으로는 [[샤피로-윌크 검정]](Shapiro-Wilk test)과 [[자크-베라 검정]](Jarque-Bera test)이 널리 활용된다. 특히 자크-베라 검정은 분포의 [[왜도]](Skewness)와 [[첨도]](Kurtosis)가 정규 분포의 특성(왜도 0, 첨도 3)에서 얼마나 벗어나 있는지를 기초로 검정 통계량을 산출한다.((A Test for Normality of Observations and Regression Residuals, https:// | ||
| + | )) 만약 정규성 가정이 위배되었다면, | ||
| ===== 확장된 회귀 모델 ===== | ===== 확장된 회귀 모델 ===== | ||
| 줄 238: | 줄 339: | ||
| === 로지스틱 회귀 분석 === | === 로지스틱 회귀 분석 === | ||
| - | 이분법적 선택이나 범주형 종속 변수를 예측하기 위한 회귀 기법을 다룬다. | + | [[로지스틱 회귀 |
| + | |||
| + | 로지스틱 | ||
| + | |||
| + | $$ \ln\left(\frac{P}{1-P}\right) = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_k X_k $$ | ||
| + | |||
| + | 위 식에서 좌변의 로짓은 $ -$에서 $ +$ 사이의 값을 가질 수 있게 되어, 우변의 선형 회귀식과 수치적으로 대응이 가능해진다. 이를 확률 $ P $에 대해 정리하면 다음과 같은 [[로지스틱 함수]](Logistic Function) 또는 [[시그모이드 함수]](Sigmoid Function)의 형태를 얻는다. | ||
| + | |||
| + | $$ P = \frac{1}{1 + e^{-(\beta_0 + \sum \beta_i X_i)}} $$ | ||
| + | |||
| + | 이 함수는 $ S $자 형태의 곡선을 그리며, 어떠한 독립 변수 값이 입력되더라도 출력되는 확률값 $ P $가 항상 0과 1 사이의 범위에 머물도록 보장한다. 이는 이분법적 선택 상황에서 특정 사건의 발생 가능성을 정량화하는 데 매우 적합한 특성이다. | ||
| + | |||
| + | 모델의 모수인 [[회귀 계수]]를 추정할 때는 선형 회귀에서 사용되는 [[최소제곱법]] 대신 [[최대우도법]](Maximum Likelihood Estimation, MLE)을 사용한다. 최대우도법은 관측된 데이터가 나타날 확률인 [[우도 함수]](Likelihood Function)를 최대화하는 계수 값을 찾는 수치적 최적화 과정을 거친다. 로지스틱 회귀에서 각 회귀 계수 $ _i $의 의미는 다른 모든 독립 변수가 고정된 상태에서 $ X_i $가 1단위 증가할 때, 로그 승산(Log-odds)이 변화하는 양을 나타낸다. 이를 실제 직관적으로 해석하기 위해 계수에 지수 함수를 취한 $ e^{_i} $를 사용하는데, | ||
| + | |||
| + | 로지스틱 회귀 분석은 [[사회과학]], | ||
| === 포아송 회귀 분석 === | === 포아송 회귀 분석 === | ||
| - | 단위 시간이나 | + | 포아송 회귀 분석(Poisson Regression Analysis)은 종속 변수가 특정 |
| + | |||
| + | 포아송 회귀 분석의 수리적 기초는 종속 변수 $ Y $가 평균 $ $를 모수로 갖는 [[포아송 분포]](Poisson Distribution)를 따른다는 가정에 있다. 포아송 분포의 확률질량함수는 다음과 같이 정의된다. | ||
| + | |||
| + | $$ P(Y=y) = \frac{e^{-\lambda} \lambda^y}{y!}, | ||
| + | |||
| + | 여기서 $ $는 해당 단위 구간 내에서 기대되는 사건의 발생 횟수를 의미한다. 일반화 선형 | ||
| + | |||
| + | $$ \ln(\lambda) = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_k X_k = \mathbf{x}^T \mathbf{\beta} $$ | ||
| + | |||
| + | 위 식을 $ $에 대해 정리하면 기대값은 독립 변수의 지수 함수 형태로 표현된다. | ||
| + | |||
| + | $$ \lambda = \exp(\beta_0 + \beta_1 X_1 + \dots + \beta_k X_k) = e^{\mathbf{x}^T \mathbf{\beta}} $$ | ||
| + | |||
| + | 이러한 지수적 구조는 독립 변수의 값에 관계없이 기대값 $ $가 항상 0보다 큰 양의 값을 유지하도록 보장함으로써, | ||
| + | |||
| + | 포아송 회귀 모델에서 계수의 해석은 선형 회귀와 달리 곱셈적(multiplicative) 성격을 지닌다. 특정 독립 변수 $ X_j $가 1단위 증가할 때, 다른 모든 변수가 일정하다면 사건의 기대 발생 횟수 $ $는 $ e^{_j} $배 변화한다. 이를 [[발생률비]](Incidence Rate Ratio, IRR)라고 하며, 특정 요인이 사건 발생 빈도에 미치는 상대적인 영향력을 파악하는 지표로 활용된다. 또한, 관측 단위마다 노출 시간이나 면적이 서로 다를 경우 이를 보정하기 위해 [[오프셋]](Offset) 변수를 도입한다. 로그 변환된 노출량을 모델의 우변에 계수가 1인 항으로 추가함으로써, | ||
| + | |||
| + | 포아송 회귀 모델을 적용할 때 반드시 검토해야 할 중요한 가정 중 하나는 평균과 분산이 동일하다는 [[등분산성]](Equidispersion) 가정이다. 즉, 포아송 분포의 성질에 따라 $ E(Y) = Var(Y) = $가 성립해야 한다. 그러나 실제 응용 분야에서는 관측된 데이터의 분산이 평균보다 훨씬 크게 나타나는 [[과분산]](Overdispersion) 현상이 빈번하게 관측된다. 만약 과분산이 존재하는 데이터에 표준적인 포아송 회귀를 적용할 경우, 계수의 표준오차가 실제보다 작게 추정되어 [[통계적 유의성]]을 과대평가하는 오류를 범할 수 있다. 이러한 한계를 극복하기 위해 분산 구조를 보다 유연하게 설정한 [[음이항 회귀]](Negative Binomial Regression) 모델이나, | ||
| + | |||
| + | 포아송 회귀 분석은 다양한 실증 연구 분야에서 필수적인 도구로 활용된다. [[역학]](Epidemiology)에서는 특정 기간 내 희귀 질병의 발병 건수를 분석하거나 환경 요인에 따른 사망률 변화를 규명하는 데 사용된다. [[보험계리법]](Actuarial Science)에서는 가입자별 사고 발생 횟수를 예측하여 위험률을 산정하고 적정 보험료를 결정하는 기초 모델로 기능한다. 또한 [[사회과학]] 분야에서는 특정 개인의 범죄 횟수, 특허 출원 수, 혹은 정치적 사건의 발생 빈도와 같은 비연속적 계수 데이터를 분석하여 변수 간의 인과 관계를 정량적으로 설명하는 데 기여하고 있다. | ||
| ==== 정규화 회귀 방법론 ==== | ==== 정규화 회귀 방법론 ==== | ||
| 줄 305: | 줄 440: | ||
| ==== 자연과학 및 사회과학 연구 ==== | ==== 자연과학 및 사회과학 연구 ==== | ||
| - | 실험 데이터 분석, 인과 관계 추론, 정책 효과 평가 | + | [[자연과학]](Natural Sciences)과 [[사회과학]](Social Sciences) 연구에서 [[회귀 분석]](Regression Analysis)은 관측된 현상의 배후에 존재하는 규칙성을 규명하고, |
| + | |||
| + | 반면 사회과학 연구에서는 자연과학과 달리 변수를 완벽하게 통제하는 것이 불가능한 경우가 많으므로, | ||
| + | |||
| + | 현대 사회과학과 공공 | ||
| + | |||
| + | 정책 효과를 추정하는 기본적인 회귀 모델의 형태는 다음과 같이 표현될 수 있다. 여기서 $ Y_i $는 성과 지표, $ D_i $는 처치(Treatment) 여부를 나타내는 이분 변수, $ X_i $는 통제 변수 벡터를 의미한다. | ||
| + | |||
| + | $$ Y_i = \alpha + \tau D_i + \beta X_i + \epsilon_i $$ | ||
| + | |||
| + | 이 식에서 계수 $ $는 다른 조건이 동일할 때 정책이 성과에 미치는 평균적인 효과를 나타낸다. 이러한 방법론적 정교함 덕분에 | ||
| + | )). 특히 [[조슈아 앵그리스트]](Joshua Angrist)와 [[구이도 임벤스]](Guido Imbens) 등의 연구는 이러한 회귀 기반 인과 추론 기법이 현대 경제학 및 사회과학의 패러다임을 어떻게 변화시켰는지를 잘 보여준다. | ||