| 양쪽 이전 판이전 판다음 판 | 이전 판 |
| 회귀_분석 [2026/04/13 14:31] – 회귀 분석 sync flyingtext | 회귀_분석 [2026/04/13 14:34] (현재) – 회귀 분석 sync flyingtext |
|---|
| ===== 개요 및 정의 ===== | ===== 개요 및 정의 ===== |
| |
| 회귀 분석의 기본적인 개념과 통계학적 정의를 설명하고 변수 간의 관계를 파악하는 원리를 다룬다. | [[통계학]](Statistics)의 핵심적 방법론 중 하나인 [[회귀 분석]](Regression Analysis)은 특정 변수가 다른 변수들에 의해 어떻게 설명되거나 예측되는지를 파악하기 위해 변수 간의 함수적 관계를 수학적 모형으로 구축하는 통계적 절차이다. 이 분석의 일차적인 목적은 관측된 데이터를 바탕으로 변수 사이의 관계를 정량화하고, 이를 통해 미지의 값을 추정하거나 현상을 설명하는 데 있다. 현대 사회과학과 자연과학 전반에서 인과 관계의 추론이나 데이터의 패턴 인식 등을 위해 광범위하게 활용되는 도구이다. |
| | |
| | 회귀 분석의 구조를 이해하기 위해서는 우선 변수의 성격에 따른 분류가 선행되어야 한다. 분석의 대상이 되는 변수는 크게 [[독립 변수]](independent variable)와 [[종속 변수]](dependent variable)로 구분된다. 독립 변수는 다른 변수에 영향을 주는 변수로, 연구자가 통제하거나 관찰하는 원인에 해당한다. 이를 [[설명 변수]](explanatory variable) 또는 [[예측 변수]](predictor variable)라고도 부른다. 반면 종속 변수는 독립 변수의 변화에 따라 그 값이 결정되는 결과 변수로, [[반응 변수]](response variable)라고 칭해지기도 한다. 회귀 분석은 이러한 변수들 사이의 관계를 다음과 같은 일반적인 수식으로 표현한다. |
| | |
| | $$ Y = f(X_1, X_2, \dots, X_p) + \epsilon $$ |
| | |
| | 위 식에서 $ Y $는 종속 변수를, $ X_i $는 독립 변수들을 의미하며, $ f $는 독립 변수들과 종속 변수 사이의 체계적인 관계를 나타내는 함수이다. 이때 현실의 데이터는 함수 $ f $에 의해 완전히 설명되지 않는 무작위적 변동을 포함하게 되는데, 이를 [[오차항]](error term)인 $ $으로 표기한다. 오차항은 모델에 포함되지 않은 수많은 미세한 요인이나 측정상의 한계 등으로 발생하는 불확실성을 수용하는 역할을 한다. |
| | |
| | 회귀 분석의 원리는 데이터 내에 존재하는 변동성(variability)을 ’설명 가능한 부분’과 ’설명 불가능한 부분’으로 분리하는 것에 있다. 관측된 종속 변수의 전체 변동 중에서 독립 변수와의 관계를 통해 설명되는 비중이 높을수록 해당 회귀 모형의 설명력은 강화된다. 이러한 관계를 규명하기 위해 회귀 분석은 [[최소제곱법]](Ordinary Least Squares, OLS)과 같은 수학적 최적화 기법을 사용하여, 실제 관측값과 모형에 의한 예측값 사이의 차이인 [[잔차]](residual)의 제곱합을 최소화하는 [[회귀 계수]](regression coefficient)를 추정한다. |
| | |
| | 변수 간의 관계를 파악하는 방식에 따라 회귀 분석은 다양한 형태로 확장된다. 단일한 독립 변수와 종속 변수 사이의 선형적 관계를 다루는 [[단순 선형 회귀]](Simple Linear Regression)에서부터, 여러 독립 변수의 복합적인 영향을 분석하는 [[다중 선형 회귀]](Multiple Linear Regression), 그리고 직선이 아닌 곡선의 형태로 관계를 모형화하는 [[비선형 회귀]](Nonlinear Regression) 등이 존재한다. 분석가는 데이터의 특성과 연구 목적에 부합하는 적절한 함수 형태를 선택함으로써, 복잡한 현실 세계의 데이터를 추상화된 수리 모형으로 변환한다. |
| | |
| | 결론적으로 회귀 분석은 단순히 수치적 예측을 수행하는 도구를 넘어, 변수 간의 [[상관관계]](correlation)를 구조화하고 특정 요인의 영향력을 검증하는 [[가설 검정]](hypothesis testing)의 틀을 제공한다. 이는 현상의 배후에 있는 법칙을 이해하고, 주어진 조건의 변화가 결과에 미치는 파급 효과를 정밀하게 분석할 수 있게 함으로써 과학적 의사결정의 토대가 된다. ((A Tutorial on Regression Analysis: From Linear Models to Deep Learning, https://arxiv.org/html/2512.04747v1 |
| | )) |
| |
| ==== 회귀 분석의 개념 ==== | ==== 회귀 분석의 개념 ==== |
| |
| 하나 이상의 독립 변수와 종속 변수 간의 상관관계를 수학적 모형으로 구축하는 통계적 방법론을 소개한다. | 회귀 분석(Regression Analysis)은 하나 이상의 [[독립 변수]](Independent Variable)와 [[종속 변수]](Dependent Variable) 간의 관계를 수학적 모형으로 구축하여 변수 간의 상관관계를 계량적으로 분석하는 통계적 방법론이다. 이는 단순히 두 변수가 함께 변화하는 정도를 측정하는 [[상관 분석]]을 넘어, 특정 변수의 변화가 다른 변수의 변화에 어떠한 영향을 미치는지를 함수식의 형태로 규명한다는 점에서 차별화된다. 회귀 분석의 핵심은 관측된 데이터를 가장 잘 설명할 수 있는 최적의 함수를 찾아내어, 변수 간의 구조적 관계를 설명하거나 미래의 값을 예측하는 데 있다. |
| | |
| | 이 분석 체계에서 영향을 주는 변수는 [[설명 변수]](Explanatory Variable)라고도 불리며, 영향을 받는 변수는 [[반응 변수]](Response Variable)로 정의된다. 회귀 분석은 이들 변수 사이의 관계를 다음과 같은 일반적인 수학적 모형으로 정형화한다. |
| | |
| | $$ Y = f(X_1, X_2, \dots, X_k; \beta) + \epsilon $$ |
| | |
| | 위 식에서 $ Y $는 종속 변수를, $ X_1, X_2, , X_k $는 독립 변수를 의미하며, $ $는 모델의 특성을 결정하는 [[회귀 계수]](Regression Coefficient)이다. 여기서 $ f $는 변수 간의 관계를 나타내는 함수적 형태를 의미하며, 만약 이 함수가 선형 결합의 구조를 가진다면 이를 [[선형 회귀]]라 칭한다. 마지막 항인 $ $은 [[오차항]](Error Term)으로, 모형이 실제 데이터를 완벽하게 설명하지 못함에 따라 발생하는 무작위적 변동성을 의미한다. 통계학적 관점에서 회귀 분석은 이 오차항의 분산을 최소화하거나 특정 확률 분포 가정을 충족하는 최적의 회귀 계수 $ $를 추정하는 과정이라 할 수 있다. |
| | |
| | 회귀 분석이 제공하는 결과물은 변수 간의 [[인과 관계]]를 직접적으로 증명하기보다는, 설정된 가설적 모형이 데이터와 얼마나 부합하는지를 통계적으로 검정하는 역할을 수행한다. 독립 변수의 수치가 한 단위 변화할 때 종속 변수가 평균적으로 얼마나 변화하는지를 나타내는 회귀 계수의 크기와 부호는 현상을 해석하는 중요한 지표가 된다. 또한, 구축된 모형의 [[결정 계수]](Coefficient of Determination)를 통해 해당 모델이 전체 데이터의 변동성을 얼마나 효과적으로 설명하고 있는지 파악할 수 있다. |
| | |
| | 이러한 회귀 분석의 개념은 현대 학문 체계 전반에서 데이터 기반 의사결정의 기초가 된다. [[경제학]]에서는 가계 소득이 소비 지출에 미치는 영향을 분석하여 정책을 수립하는 데 활용되며, [[자연과학]]이나 [[공학]] 분야에서는 실험 조건에 따른 결과값의 변화를 정밀하게 예측하는 도구로 사용된다. 최근에는 [[기계 학습]]의 영역에서도 수치형 데이터를 예측하는 지도 학습의 핵심 알고리즘으로 다루어지며 그 중요성이 더욱 증대되고 있다. 결국 회귀 분석은 복잡한 현실 세계의 변수 간 상호작용을 단순화된 수학적 언어로 번역함으로써, 현상의 기저에 흐르는 법칙성을 발견하고 이를 실무에 적용하게 하는 필수적인 분석 도구이다. |
| |
| ==== 주요 용어와 변수의 분류 ==== | ==== 주요 용어와 변수의 분류 ==== |
| |
| 설명 변수, 반응 변수, 오차항, 회귀 계수 등 분석의 구성 요소를 정의하고 각 역할을 규명한다. | 회귀 분석을 수행하기 위해서는 분석의 대상이 되는 변수를 그 역할과 성격에 따라 명확히 규정해야 한다. 가장 기본적인 분류는 [[독립 변수]](independent variable)와 [[종속 변수]](dependent variable)의 구별이다. 독립 변수는 다른 변수에 영향을 주는 변수로, 연구자가 통제하거나 관측하는 원인적 요소를 의미한다. 반면 종속 변수는 독립 변수의 변화에 따라 그 값이 결정되는 결과적 요소를 나타낸다. 통계학적 맥락에서는 엄밀한 인과 관계를 확정하기 어려운 경우를 고려하여 독립 변수를 [[설명 변수]](explanatory variable) 또는 예측 변수(predictor variable)로, 종속 변수를 [[반응 변수]]( |
| |
| ===== 역사적 배경과 발전 ===== | ===== 역사적 배경과 발전 ===== |
| |
| 회귀 분석이 태동하게 된 학술적 배경과 현대 통계학으로 발전해 온 과정을 기술한다. | 회귀 분석의 학술적 기원은 19세기 초 [[천문학]]과 [[측지학]] 분야에서 관측 데이터의 오차를 최소화하려는 수치적 시도에서 비롯되었다. 당시 학자들은 행성의 궤도나 지구의 형상을 결정하기 위해 동일한 대상에 대한 다수의 관측값을 결합하는 방법론을 모색하였다. 이러한 배경에서 [[아드리앵마리 르장드르]](Adrien-Marie Legendre)는 1805년 [[최소제곱법]](Method of Least Squares)을 처음으로 공식 발표하였다. 그는 잔차(Residual)의 제곱합을 최소화함으로써 가장 적합한 추정치를 얻는 수치적 최적화 기법을 제시하였다. 이와 거의 동시에 [[칼 프리드리히 가우스]](Carl Friedrich Gauss)는 1809년 자신의 저서에서 최소제곱법이 [[오차]]의 [[정규 분포]](Normal distribution) 가정하에서 [[최대 우도 추정법]](Maximum Likelihood Estimation)과 일치함을 증명하며 이론적 정당성을 부여하였다. 가우스는 자신이 1795년부터 이 방법을 사용해왔다고 주장하며 우선권 논쟁이 발생하기도 하였으나, 결과적으로 두 학자의 기여는 현대 회귀 분석의 수치적 기초를 확립하는 데 결정적인 역할을 하였다. |
| | |
| | 최소제곱법의 목적 함수는 일반적으로 다음과 같이 정의된다. 독립 변수 $ x_i $와 종속 변수 $ y_i $의 관계를 $ y_i = _0 + _1 x_i + _i $라고 할 때, 오차항 $ _i $의 제곱합을 최소화하는 계수 $ $를 찾는 것이 핵심이다. $$ S = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 = \sum_{i=1}^{n} (y_i - (\beta_0 + \beta_1 x_i))^2 $$ 위 식에서 $ S $를 최소화하는 해를 구함으로써 관측 데이터를 가장 잘 설명하는 회귀 직선을 도출할 수 있다. |
| | |
| | ’회귀(Regression)’라는 용어가 통계학의 고유한 방법론적 명칭으로 자리 잡은 것은 19세기 후반 영국의 유전학자 [[프랜시스 골턴]](Francis Galton)의 연구를 통해서이다. 골턴은 1886년 발표한 논문에서 부모의 키와 자녀의 키 사이의 관계를 분석하던 중, 부모의 키가 극단적으로 크거나 작더라도 자녀의 키는 전체 인구의 평균치로 돌아가려는 경향이 있음을 발견하였다((Galton, Pearson, and the Peas: A Brief History of Linear Regression for Statistics Instructors, https://www.tandfonline.com/doi/full/10.1080/10691898.2001.11910537 |
| | )). 그는 이를 [[평균으로의 회귀]](Regression toward the mean)라고 명명하였다. 비록 골턴의 초기 연구는 생물학적 현상을 설명하는 데 집중되어 있었으나, 이후 [[칼 피어슨]](Karl Pearson)과 [[조지 우드니 율]](George Udny Yule) 등에 의해 이러한 관계성이 수학적으로 일반화되면서 [[상관관계]](Correlation)와 구별되는 독립적인 분석 도구로 발전하였다. 특히 율은 회귀 분석을 경제학 및 사회과학의 시계열 데이터 분석에 적용함으로써 응용 범위를 크게 넓혔다. |
| | |
| | 20세기에 들어서며 회귀 분석은 [[로널드 피셔]](Ronald Fisher)에 의해 현대적 [[추론 통계학]](Inferential statistics)의 체계 안으로 편입되었다. 피셔는 [[분산 분석]](Analysis of Variance, ANOVA)의 개념을 도입하고, 회귀 계수의 통계적 유의성을 검정할 수 있는 [[F-검정]](F-test)과 [[t-검정]](t-test)의 기틀을 마련하였다. 또한 [[가우스-마르코프 정리]](Gauss-Markov theorem)의 정립은 최소제곱 추정량이 일정한 조건 하에서 최선 선형 불편 추정량(Best Linear Unbiased Estimator, BLUE)이 됨을 입증하여 모델의 신뢰성을 학술적으로 뒷받침하였다. 이후 1970년대 [[넬더]](John Nelder)와 [[웨더번]](Robert Wedderburn)이 제안한 [[일반화 선형 모델]](Generalized Linear Model, GLM)은 종속 변수가 정규 분포를 따르지 않는 경우까지 분석 범위를 확장하며 현대 통계학의 중추적인 역할을 수행하게 되었다. |
| |
| ==== 회귀라는 용어의 기원 ==== | ==== 회귀라는 용어의 기원 ==== |
| |
| 프랜시스 골턴의 유전학 연구에서 나타난 평균으로의 회귀 현상과 그 통계적 의미를 고찰한다. | 통계학에서 [[회귀]](Regression)라는 용어는 19세기 영국의 다학제적 연구자 [[프랜시스 골턴]](Francis Galton)이 수행한 [[유전학]] 연구에서 처음으로 등장하였다. 골턴은 부모의 신체적 특성이 자손에게 전달되는 원리를 정량적으로 규명하고자 하였으며, 특히 인간의 신장(Height) 유전 데이터에 주목하였다. 그는 1886년 발표한 논문인 「유전적 신장에서의 평범함으로의 회귀(Regression towards mediocrity in hereditary stature)」를 통해 특정 형질이 세대를 거듭하며 인구 전체의 평균적인 수준으로 돌아가려는 경향이 있음을 통계적으로 증명하였다((Galton, F. (1886). Regression towards mediocrity in hereditary stature. The Journal of the Anthropological Institute of Great Britain and Ireland, 15, 246-263. https://www.jstor.org/stable/2841583 |
| | )). |
| | |
| | 골턴은 수많은 가족의 데이터를 수집하여 부모의 평균 키와 성인이 된 자녀의 키 사이의 관계를 분석하였다. 그 결과, 키가 매우 큰 부모에게서 태어난 자녀는 부모보다는 작고 인구 전체의 평균보다는 큰 경향을 보였으며, 반대로 키가 매우 작은 부모의 자녀는 부모보다는 크고 평균보다는 작은 경향을 나타냈다. 골턴은 이러한 현상을 ’평균으로의 회귀(Regression toward the mean)’라고 정의하였다. 이는 생물학적 형질이 세대를 거치면서 극단적인 방향으로 계속해서 나아가지 않고, 종(Species)의 중심적인 특성으로 수렴함으로써 집단의 안정성을 유지하려는 일종의 통계적 제동 장치와 같은 역할을 함을 의미한다. |
| | |
| | 이러한 현상을 수학적으로 기술하는 과정에서 골턴은 두 변수 간의 관계를 나타내는 직선의 기울기가 1보다 작다는 사실을 발견하였다. 만약 자녀의 키가 부모의 키를 완벽하게 물려받는다면 기울기는 1이 되어야 하지만, 실제 데이터에서는 부모의 키가 평균에서 벗어난 정도보다 자녀의 키가 평균에서 벗어난 정도가 더 작게 나타났다. 골턴은 이를 상관 계수(Correlation coefficient)의 전신이 되는 개념으로 설명하였으며, 이때 사용된 산점도상의 최적합 직선을 [[회귀선]](Regression line)이라 부르기 시작하였다. |
| | |
| | 이후 [[칼 피어슨]](Karl Pearson)과 [[조지 우드니 율]](George Udny Yule) 등은 골턴의 생물학적 발견을 보다 일반적인 통계 이론으로 확장하였다((Pearson, K., & Lee, A. (1903). On the Laws of Inheritance in Man: I. Inheritance of Physical Characters. Biometrika, 2(4), 357-462. https://academic.oup.com/biomet/article/2/4/357/196655 |
| | )). 그들은 회귀의 개념을 단순히 유전적 수렴 현상에 국한하지 않고, 하나의 [[변수]]가 다른 변수에 의존하여 변화하는 함수적 관계를 추정하는 보편적인 방법론으로 정립하였다. 이 과정에서 본래 ’평균으로 되돌아간다’는 생물학적 의미를 지녔던 회귀라는 단어는, 과거의 데이터를 바탕으로 [[독립 변수]](Independent variable)와 [[종속 변수]](Dependent variable) 사이의 관계식을 도출하여 미래의 값을 예측하는 통계적 기법 전체를 지칭하는 고유 명사로 안착하게 되었다. |
| | |
| | 현대적 관점에서 회귀 분석은 골턴이 관찰했던 평균으로의 수렴 현상만을 다루지는 않는다. 그러나 변수 간의 관계를 선형적으로 모델링하고 오차를 최소화하는 [[최소제곱법]](Least squares method)의 원리는 골턴이 구축한 통계적 사고의 틀에 기반하고 있다. 따라서 회귀라는 명칭은 통계학의 역사적 기원을 상징하는 동시에, 데이터의 변동성 속에서 변수 간의 질서 있는 관계를 찾아내려는 학문적 노력을 함축하고 있다. |
| |
| ==== 최소제곱법의 확립 ==== | ==== 최소제곱법의 확립 ==== |
| |
| 르장드르와 가우스에 의해 정립된 최소제곱법이 회귀 분석의 수치적 기초가 된 과정을 설명한다. | [[회귀 분석]]의 수치적 토대를 이루는 [[최소제곱법]](Method of Least Squares)의 확립은 18세기 말과 19세기 초 [[천문학]] 및 [[측지학]] 분야에서 제기된 실천적 과제를 해결하는 과정에서 비롯되었다. 당시 과학자들은 천체의 궤도를 계산하거나 지구의 형상을 측정하기 위해 다수의 관측치를 수집하였으나, 측정 장비의 한계와 환경적 요인으로 인해 발생하는 [[오차]](Error)를 효과적으로 처리해야 하는 난제에 직면해 있었다. 여러 개의 관측 방정식으로부터 미지수의 최적값을 도출하기 위한 수학적 원리가 절실했던 시기에, [[아드리앵마리 르장드르]](Adrien-Marie Legendre)와 [[카를 프리드리히 가우스]](Carl Friedrich Gauss)에 의해 현대적 의미의 최소제곱법이 정립되었다. |
| | |
| | 최소제곱법이라는 용어를 세상에 처음으로 공표한 인물은 르장드르이다. 그는 1805년 발표한 저서 《혜성의 궤도를 결정하는 새로운 방법》(Nouvelles méthodes pour la détermination des orbites des comètes)의 부록에서 ’최소제곱법(méthode des moindres carrés)’이라는 명칭을 사용하며 그 원리를 상세히 기술하였다. 르장드르는 관측값과 모델 예측값 사이의 차이인 [[잔차]](Residual)를 최소화하는 방법으로, 잔차의 단순 합이 아닌 제곱의 합을 최소화하는 방식을 제안하였다. 이는 양수와 음수의 잔차가 서로 상쇄되는 문제를 방지하고, 극단적인 오차에 더 큰 가중치를 부여함으로써 전체적인 적합도를 높이려는 대수적 접근이었다. |
| | |
| | 가우스는 르장드르보다 늦은 1809년 《천체 운동 이론》(Theoria motus corporum coelestium)을 통해 자신의 방법론을 공개하였으나, 본인이 이미 1795년부터 이 기법을 사용해 왔다고 주장하며 우선권 논쟁을 일으켰다. 그러나 학술적 관점에서 가우스의 진정한 공헌은 최소제곱법에 [[확률론]]적 정당성을 부여했다는 점에 있다. 가우스는 오차가 [[정규 분포]](Normal Distribution)를 따른다고 가정할 때, 최소제곱법에 의한 추정치가 [[최대 우도 추정법]](Maximum Likelihood Estimation)에 의한 추정치와 일치함을 수학적으로 증명하였다((Gauss on least-squares and maximum-likelihood estimation, https://link.springer.com/content/pdf/10.1007/s00407-022-00291-w.pdf |
| | )). 이는 단순한 계산 기법이었던 최소제곱법을 통계적 추론의 영역으로 격상시킨 결정적 계기가 되었다. |
| | |
| | 수학적으로 최소제곱법은 선형 시스템 $ = + $에서 잔차 제곱합 $ S $를 최소화하는 계수 벡터 $ $를 찾는 과정으로 정의된다. |
| | |
| | $$ S(\boldsymbol{\beta}) = \sum_{i=1}^{n} (y_i - \mathbf{x}_i^\top \boldsymbol{\beta})^2 = (\mathbf{y} - \mathbf{X}\boldsymbol{\beta})^\top (\mathbf{y} - \mathbf{X}\boldsymbol{\beta}) $$ |
| | |
| | 위 식을 $ $에 대해 미분하여 0으로 놓음으로써 도출되는 [[정규 방정식]](Normal Equation) $ ^ = ^ $은 현대 회귀 분석의 핵심적인 계산 수식이다. 가우스는 이 과정을 통해 얻은 추정량이 불편성(Unbiasedness)과 최소 분산을 갖는다는 점을 고찰하였으며, 이는 훗날 [[가우스-마르코프 정리]](Gauss-Markov Theorem)로 체계화되어 최소제곱법이 [[최선 선형 불편 추정량]](Best Linear Unbiased Estimator, BLUE)임을 보장하는 이론적 근거가 되었다((Gauss and the Invention of Least Squares, https://projecteuclid.org/journals/annals-of-statistics/volume-9/issue-3/Gauss-and-the-Invention-of-Least-Squares/10.1214/aos/1176345451.full |
| | )). |
| | |
| | 두 수학자의 기여를 통해 확립된 최소제곱법은 데이터 내의 무작위 오차를 체계적으로 배제하고 변수 간의 최적 관계를 규명하는 표준적 도구가 되었다. 특히 가우스가 보여준 통계적 접근 방식은 단순히 관측 오차를 보정하는 단계를 넘어, 표본 데이터를 통해 모집단의 특성을 추론하는 현대 [[추론 통계학]]의 시초가 되었다고 평가받는다. 이러한 수치적 기초 위에서 [[프랜시스 골턴]]과 [[칼 피어슨]] 등에 의해 회귀 분석의 개념적 확장이 이루어질 수 있었다. |
| |
| ===== 선형 회귀 모델의 이론 ===== | ===== 선형 회귀 모델의 이론 ===== |
| |
| 가장 기본적인 형태인 선형 회귀 모델의 구조와 이를 추정하기 위한 수학적 이론을 상세히 다룬다. | [[선형 회귀]](Linear Regression) 모델은 하나 이상의 [[독립 변수]](Independent Variable)와 [[종속 변수]](Dependent Variable) 사이의 선형적 상관관계를 수치적으로 규명하는 통계적 모형이다. 이 모델의 기본 가정은 종속 변수 $ Y $가 독립 변수들의 선형 결합과 확률적 [[오차항]](Error Term)의 합으로 표현될 수 있다는 점이다. 이론적 전개에서 가장 기초가 되는 단순 선형 회귀 모델은 하나의 독립 변수만을 포함하며, 다중 선형 회귀 모델은 이를 $ k $개의 독립 변수로 확장한 형태를 띤다. 선형 회귀 모델의 수학적 구조는 다음과 같이 정의된다. |
| | |
| | $$ Y_i = \beta_0 + \beta_1 X_{i1} + \beta_2 X_{i2} + \dots + \beta_k X_{ik} + \epsilon_i \quad (i = 1, \dots, n) $$ |
| | |
| | 위 식에서 $ Y_i $는 $ i $번째 관측치의 종속 변수 값이며, $ X_{ij} $는 $ i $번째 관측치의 $ j $번째 독립 변수 값을 나타낸다. $ _j $는 모델이 추정하고자 하는 미지의 [[모수]](Parameter)로서, 독립 변수 $ X_j $가 한 단위 변화할 때 종속 변수 $ Y $에 미치는 영향력을 의미한다. $ _i $는 모델이 설명하지 못하는 무작위 오차를 나타낸다. |
| | |
| | 대규모 데이터를 다루는 현대 통계학에서는 [[행렬 대수학]](Matrix Algebra)을 이용하여 모델을 간결하게 표현한다. $ n $개의 관측치와 $ p $개의 모수(상수항 포함 $ p = k+1 $)에 대하여, 모델은 다음과 같은 행렬식으로 기술된다. |
| | |
| | $$ \mathbf{Y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\epsilon} $$ |
| | |
| | 여기서 $ $는 $ n $ 종속 변수 벡터, $ $는 $ n p $ 크기의 [[설계 행렬]](Design Matrix), $ $는 $ p $ 회귀 계수 벡터, 그리고 $ $은 $ n $ 오차항 벡터이다. 설계 행렬의 첫 번째 열은 통상적으로 상수항을 반영하기 위해 모든 원소가 1로 채워진다. |
| | |
| | 선형 회귀 모델의 이론적 핵심은 관측된 표본 데이터를 바탕으로 최적의 회귀 계수 $ $를 추정하는 방법론에 있다. 가장 보편적으로 사용되는 기법은 [[최소제곱법]](Ordinary Least Squares, OLS)이다. 최소제곱법은 실제 관측값과 모델에 의한 예측값의 차이인 [[잔차]](Residual)의 제곱합을 최소화하는 계수를 찾는 원리이다. 잔차 제곱합(Residual Sum of Squares, RSS) 함수 $ S() $는 다음과 같이 정의된다. |
| | |
| | $$ S(\boldsymbol{\beta}) = \sum_{i=1}^{n} (Y_i - \mathbf{x}_i^T \boldsymbol{\beta})^2 = (\mathbf{Y} - \mathbf{X}\boldsymbol{\beta})^T (\mathbf{Y} - \mathbf{X}\boldsymbol{\beta}) $$ |
| | |
| | 함수 $ S() $를 $ $에 대해 미분하여 0이 되는 지점을 찾으면, 다음과 같은 [[정규 방정식]](Normal Equations)을 얻게 된다. |
| | |
| | $$ \mathbf{X}^T \mathbf{X} \hat{\boldsymbol{\beta}} = \mathbf{X}^T \mathbf{Y} $$ |
| | |
| | 만약 $ ^T $ 행렬의 역행렬이 존재한다면, 즉 독립 변수들 사이에 완전한 선형 관계가 없는 [[풀 랭크]](Full Rank) 상태라면, 최소제곱 추정량은 다음과 같은 유일한 해를 갖는다. |
| | |
| | $$ \hat{\boldsymbol{\beta}} = (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \mathbf{Y} $$ |
| | |
| | 이렇게 도출된 최소제곱 추정량은 몇 가지 통계적 성질을 보유한다. 오차항의 기댓값이 0이라는 가정하에, $ $는 모수 $ $의 [[불편 추정량]](Unbiased Estimator)이 된다. 즉, 반복적인 표본 추출을 통해 얻은 추정치들의 평균은 실제 모수값과 일치한다. 또한, 오차항들이 서로 독립이고 동일한 분산 $ ^2 $을 갖는다는 조건 하에서 추정량의 [[분산]](Variance)-[[공분산]](Covariance) 행렬은 $ ^2 (^T )^{-1} $로 계산된다. |
| | |
| | 선형 회귀 모델의 이론적 우수성은 [[가우스-마르코프 정리]](Gauss-Markov Theorem)에 의해 뒷받침된다. 이 정리에 따르면, 모델의 기본 가정이 충족될 때 최소제곱 추정량은 모든 선형 불편 추정량 중에서 가장 작은 분산을 가지는 [[최선 선형 불편 추정량]](Best Linear Unbiased Estimator, BLUE)이다. 이는 최소제곱법이 통계적으로 가장 효율적인 추정 방식임을 수학적으로 증명하는 근거가 된다((Xiaogang Su, Xin Yan and Chih-Ling Tsai, “Linear regression”, https://2024.sci-hub.st/1548/998bc648fb4403909999a8d2b33ed61c/su2012.pdf |
| | )). |
| |
| ==== 단순 선형 회귀 분석 ==== | ==== 단순 선형 회귀 분석 ==== |
| |
| 단일 독립 변수를 사용하는 모델의 구조와 회귀 직선을 도출하는 과정을 설명한다. | 단순 선형 회귀 분석(Simple Linear Regression Analysis)은 하나의 [[독립 변수]](independent variable)와 하나의 [[종속 변수]](dependent variable) 사이의 관계를 직선의 형태로 모형화하는 통계적 기법이다. 이 분석의 핵심 목적은 독립 변수의 변화에 따른 종속 변수의 변화 양상을 파악하고, 이를 통해 주어진 독립 변수 값에 대한 종속 변수의 값을 예측하는 데 있다. 모집단에서의 단순 선형 회귀 모델은 다음과 같은 수학적 구조를 갖는다. |
| | |
| | $ Y = _0 + _1 X + $ |
| | |
| | 위 식에서 $ Y $는 종속 변수, $ X $는 독립 변수를 나타내며, $ _0 $는 $ X $가 0일 때의 $ Y $의 기댓값인 절편(intercept)을 의미한다. $ _1 $은 독립 변수가 한 단위 변화할 때 종속 변수가 변화하는 정도를 나타내는 기울기(slope)로, 이를 [[회귀 계수]](regression coefficient)라 한다. 마지막으로 $ $은 모델이 설명하지 못하는 무작위적인 변동을 의미하는 [[오차항]](error term)이다. 오차항은 평균이 0이고 분산이 일정한 [[정규 분포]]를 따른다는 가정을 전제로 한다. |
| | |
| | 실제 연구에서는 모집단의 모든 데이터를 전수 조사할 수 없으므로, 표본 데이터를 사용하여 미지의 [[모수]](parameter)인 $ _0 $와 $ _1 $을 추정한다. 이를 통해 도출된 식을 표본 회귀식이라 하며, 다음과 같이 표기한다. |
| | |
| | $ _i = _0 + _1 x_i $ |
| | |
| | 여기서 $ _i $는 추정된 예측값이며, 실제 관측값 $ y_i $와 예측값 사이의 차이를 [[잔차]](residual)라고 정의한다. 회귀 분석에서 가장 널리 사용되는 추정 방법은 [[최소제곱법]](Ordinary Least Squares, OLS)이다. 최소제곱법은 잔차의 제곱합을 최소화하는 계수를 찾는 원리이다. 잔차 제곱합(Residual Sum of Squares, RSS)을 $ S $라고 할 때, 이는 다음과 같이 정의된다. |
| | |
| | $$ S(\hat{\beta}_0, \hat{\beta}_1) = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 = \sum_{i=1}^{n} (y_i - \hat{\beta}_0 - \hat{\beta}_1 x_i)^2 $$ |
| | |
| | 최적의 회귀 계수를 구하기 위해 $ S $를 각각 $ _0 $와 $ _1 $에 대해 [[편미분]]하여 그 값이 0이 되는 정규 방정식(Normal Equations)을 도출한다. 먼저 절편에 대해 미분하면 다음과 같은 관계를 얻는다. |
| | |
| | $$ \frac{\partial S}{\partial \hat{\beta}_0} = -2 \sum_{i=1}^{n} (y_i - \hat{\beta}_0 - \hat{\beta}_1 x_i) = 0 $$ |
| | |
| | 이 식을 정리하면 추정된 회귀 직선은 항상 독립 변수와 종속 변수의 [[표본 평균]]점인 $ ({x}, {y}) $를 통과한다는 성질을 도출할 수 있다. 이어 기울기에 대해 미분하여 정리하면 최종적으로 다음과 같은 회귀 계수 추정량을 얻는다. |
| | |
| | $$ \hat{\beta}_1 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^{n} (x_i - \bar{x})^2} = \frac{Cov(X, Y)}{Var(X)} $$ |
| | |
| | $$ \hat{\beta}_0 = \bar{y} - \hat{\beta}_1 \bar{x} $$ |
| | |
| | 여기서 $ Cov(X, Y) $는 두 변수 사이의 [[공분산]]이며, $ Var(X) $는 독립 변수의 [[분산]]이다. 즉, 기울기 추정량은 독립 변수의 변동성 대비 두 변수가 함께 변하는 정도의 비율로 결정된다. 이렇게 도출된 회귀 직선은 관측된 데이터의 분포를 가장 잘 대변하는 최적의 직선이 된다. |
| | |
| | 단순 선형 회귀 분석을 통해 얻은 결과는 단순히 수치적 예측에 그치지 않고, 두 변수 간의 인과 관계를 추론하는 기초 자료로 활용된다. 추정된 기울기 $ _1 $의 부호와 크기는 독립 변수가 종속 변수에 미치는 영향의 방향과 강도를 나타낸다. 다만, 이러한 회귀 모델이 통계적으로 유의미한지 판단하기 위해서는 [[가설 검정]]을 통한 회귀 계수의 유의성 검토와 [[결정 계수]](coefficient of determination)를 이용한 모델의 설명력 평가가 수반되어야 한다. |
| |
| === 회귀 계수의 추정 === | === 회귀 계수의 추정 === |
| |
| 표본 데이터를 바탕으로 모수를 추정하는 방법과 그 통계적 성질을 논한다. | 회귀 분석의 일차적인 목적은 표본 데이터를 통해 모집단의 특성을 나타내는 [[모수]](parameter)를 객관적으로 추정하는 것이다. 단순 선형 회귀 모델에서 추정하고자 하는 대상은 회귀 직선의 절편인 $ _0 $와 기울기인 $ _1 $이다. 실제 연구 상황에서는 모집단 전체를 전수 조사하는 것이 불가능하므로, 수집된 표본 데이터를 바탕으로 한 [[통계적 추정]](statistical estimation) 과정을 거치게 된다. 이때 관측된 데이터에 가장 적합한 회귀 계수를 찾아내기 위해 가장 널리 사용되는 방법론이 [[최소제곱법]](Ordinary Least Squares, OLS)이다. |
| | |
| | 최소제곱법은 관측값 $ Y_i $와 모델에 의해 예측된 값 $ _i $ 사이의 차이인 [[잔차]](residual)의 제곱합을 최소화하는 계수를 선택하는 방식이다. 표본의 크기가 $ n $일 때, 잔차 제곱합(Residual Sum of Squares, RSS)은 다음과 같은 목적 함수 $ S $로 정의된다. |
| | |
| | $$ S(\beta_0, \beta_1) = \sum_{i=1}^{n} (Y_i - \hat{Y}_i)^2 = \sum_{i=1}^{n} (Y_i - \beta_0 - \beta_1 X_i)^2 $$ |
| | |
| | 이 함수 $ S $를 최소화하는 $ _0 $와 $ _1 $을 찾기 위해 각 모수에 대하여 [[편미분]](partial derivative)을 수행한다. 각 편미분 계수를 0으로 놓음으로써 도출되는 연립 방정식을 정규 방정식(Normal Equations)이라 하며, 이를 풀면 다음과 같은 회귀 계수의 추정량(estimator)을 얻을 수 있다. |
| | |
| | $$ \hat{\beta}_1 = \frac{\sum_{i=1}^{n} (X_i - \bar{X})(Y_i - \bar{Y})}{\sum_{i=1}^{n} (X_i - \bar{X})^2} $$ $$ \hat{\beta}_0 = \bar{Y} - \hat{\beta}_1 \bar{X} $$ |
| | |
| | 여기서 $ {X} $와 $ {Y} $는 각각 독립 변수와 종속 변수의 표본 평균을 의미한다. 추정된 기울기 $ _1 $은 독립 변수 $ X $가 한 단위 변화할 때 종속 변수 $ Y $가 평균적으로 얼마나 변화하는지를 나타내며, 절편 $ _0 $는 $ X $가 0일 때의 $ Y $의 기댓값을 의미한다. |
| | |
| | 이렇게 도출된 최소제곱 추정량은 몇 가지 중요한 통계적 성질을 지닌다. 첫째, [[불편성]](unbiasedness)이다. 모델의 기본 가정이 충족될 때, 추정량의 기댓값은 실제 모집단의 모수와 일치한다. 즉, $ E[_0] = _0 $ 및 $ E[_1] = _1 $이 성립한다. 이는 반복적인 표본 추출을 통해 계수를 추정할 경우, 그 평균적인 결과가 참값에 수렴함을 보장한다. |
| | |
| | 둘째, [[가우스-마르코프 정리]](Gauss-Markov Theorem)에 의한 효율성이다. 오차항이 서로 독립이며 등분산성을 가진다는 가정하에, 최소제곱 추정량은 모든 선형 불편 추정량 중에서 분산이 가장 작은 [[최선 선형 불편 추정량]](Best Linear Unbiased Estimator, BLUE)이 된다. 분산이 작다는 것은 추정의 정밀도가 높음을 의미하며, 이는 통계적 추론의 신뢰성을 확보하는 핵심적 근거가 된다. |
| | |
| | 마지막으로 추정량의 분산과 [[표준 오차]](standard error)에 관한 고찰이 필요하다. 추정된 회귀 계수의 불확실성을 측정하기 위해 오차항의 분산 $ ^2 $을 추정해야 하는데, 이는 잔차 제곱합을 자유도 $ n-2 $로 나눈 [[표본 분산]] $ ^2 $을 통해 계산된다. 회귀 계수의 표준 오차는 계수의 유의성을 검정하는 [[가설 검정]]과 [[신뢰 구간]](confidence interval) 산출의 기초 자료로 활용된다. 결과적으로 회귀 계수의 추정은 단순한 수치 계산을 넘어, 데이터 내재적 변동성을 고려하여 모수의 참값에 대한 최적의 통계적 판단을 내리는 과정이라 할 수 있다. |
| |
| === 적합도와 결정 계수 === | === 적합도와 결정 계수 === |
| |
| 도출된 회귀식이 실제 데이터를 얼마나 잘 설명하는지 측정하는 지표를 분석한다. | [[회귀 모델]]을 통해 [[회귀 계수]]를 추정한 후에는 해당 모델이 실제 데이터를 얼마나 정확하게 설명하고 있는지를 정량적으로 평가하는 과정이 필수적이다. 이를 [[적합도]](Goodness of Fit) 분석이라 하며, 모델에 의해 설명되는 변동이 전체 변동에서 차지하는 비중을 측정하여 모델의 유용성을 판단한다. 적합도를 평가하는 가장 대표적인 지표는 [[결정 계수]](Coefficient of Determination)이며, 이는 [[종속 변수]]의 전체 변동을 모델에 의한 변동과 오차에 의한 변동으로 분할하는 원리에 기초한다. |
| | |
| | [[관측값]] $ Y_i $의 전체 변동을 이해하기 위해 통계학에서는 총 제곱합(Total Sum of Squares, SST)의 개념을 사용한다. 총 제곱합은 개별 관측값이 [[산술 평균]]으로부터 떨어진 거리의 제곱 총합으로, 데이터가 가진 전체 [[분산]]의 크기를 나타낸다. [[최소제곱법]]에 의해 도출된 회귀선은 이 전체 변동을 두 가지 성분으로 분해한다. 첫째는 회귀 제곱합(Regression Sum of Squares, SSR)으로, 평균으로부터 회귀선까지의 거리를 의미하며 모델의 [[독립 변수]]에 의해 설명되는 변동분이다. 둘째는 잔차 제곱합(Error Sum of Squares, SSE)으로, 회귀선으로부터 실제 관측값까지의 거리인 [[잔차]]의 제곱합이며 모델이 설명하지 못하는 무작위 오차의 영역이다. 이들의 관계는 다음과 같은 항등식으로 표현된다. |
| | |
| | $$ SST = SSR + SSE $$ |
| | |
| | $$ \sum_{i=1}^{n} (Y_i - \bar{Y})^2 = \sum_{i=1}^{n} (\hat{Y}_i - \bar{Y})^2 + \sum_{i=1}^{n} (Y_i - \hat{Y}_i)^2 $$ |
| | |
| | 결정 계수 $ R^2 $은 총 제곱합에서 회귀 제곱합이 차지하는 비율로 정의된다. 이는 $ 0 $과 $ 1 $ 사이의 값을 가지며, $ 1 $에 가까울수록 회귀 모델의 설명력이 높음을 의미한다. 수식으로는 다음과 같이 나타낼 수 있다. |
| | |
| | $$ R^2 = \frac{SSR}{SST} = 1 - \frac{SSE}{SST} $$ |
| | |
| | 단순 선형 회귀 분석에서 결정 계수는 독립 변수와 종속 변수 간의 [[상관계수]]를 제곱한 값과 동일한 수치적 특성을 갖는다. 그러나 결정 계수를 해석할 때는 주의가 필요하다. $ R^2 $은 모델에 포함된 독립 변수의 수가 늘어날수록, 해당 변수가 종속 변수와 논리적 인과 관계가 없더라도 수학적으로 반드시 증가하거나 최소한 유지되는 성질이 있다. 이러한 특성 때문에 변수가 과도하게 투입된 모델에서는 결정 계수가 실제보다 높게 나타나는 [[과적합]](Overfitting) 문제가 발생할 수 있다. |
| | |
| | 이러한 한계를 보완하기 위해 도입된 지표가 [[수정된 결정 계수]](Adjusted R-squared)이다. 수정된 결정 계수는 각 제곱합을 해당 [[자유도]](Degrees of Freedom)로 나누어 표본 크기와 독립 변수의 개수를 동시에 고려한다. 이는 불필요한 독립 변수가 추가될 때 모델에 가해지는 벌점(Penalty) 역할을 수행하여, 모델의 간결성과 설명력을 동시에 평가할 수 있게 한다. 수정된 결정 계수 $ {R}^2 $은 다음과 같이 계산된다. |
| | |
| | $$ \bar{R}^2 = 1 - \left[ \frac{(1 - R^2)(n - 1)}{n - k - 1} \right] $$ |
| | |
| | 여기서 $ n $은 표본의 크기이며, $ k $는 독립 변수의 개수이다. [[다중 회귀 분석]]에서는 모델 간의 비교를 위해 일반 결정 계수보다 수정된 결정 계수를 사용하는 것이 더욱 타당하다. 이 외에도 추정의 표준오차(Standard Error of the Estimate) 등을 병행하여 검토함으로써, 모델이 데이터의 실제 분포를 얼마나 정밀하게 모사하고 있는지 종합적으로 진단한다. 적합도 지표는 모델의 통계적 유의성을 보장하는 것은 아니며, 단지 데이터에 대한 설명력을 나타내는 척도이므로 [[추론 통계학]]적 검정 결과와 함께 해석되어야 한다. |
| |
| ==== 다중 선형 회귀 분석 ==== | ==== 다중 선형 회귀 분석 ==== |
| |
| 두 개 이상의 독립 변수가 종속 변수에 미치는 영향을 동시에 분석하는 확장된 모델을 다룬다. | [[다중 선형 회귀 분석]](Multiple Linear Regression Analysis)은 하나의 [[종속 변수]]와 두 개 이상의 [[독립 변수]]들 사이의 선형적 관련성을 분석하는 통계적 방법이다. 현실 세계의 복잡한 현상은 대개 단일 요인보다는 여러 요인의 복합적인 작용으로 결정되므로, [[단순 선형 회귀 분석]]을 확장하여 여러 독립 변수가 종속 변수에 미치는 영향을 동시에 파악하는 모델이 필요하다. 이 모델은 각 독립 변수가 종속 변수의 변동을 얼마나 설명하는지 정량화하며, 다른 변수들의 영향력이 통제된 상태에서 특정 변수가 갖는 고유한 기여도를 산출하는 데 목적이 있다. |
| | |
| | 다중 선형 회귀 모델의 수학적 구조는 다음과 같이 정의된다. $ k $개의 독립 변수 $ X_1, X_2, , X_k $가 존재할 때, 종속 변수 $ Y $와의 관계는 다음과 같은 선형 방정식으로 표현된다. |
| | |
| | $$ Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_k X_k + \epsilon $$ |
| | |
| | 여기서 $ _0 $는 절편(intercept)이며, $ _1, , _k $는 각 독립 변수에 대응하는 회귀 계수(regression coefficient)이다. $ $은 모델이 설명하지 못하는 [[오차항]](error term)을 의미한다. 이를 행렬(matrix) 형식으로 일반화하면 분석의 효율성을 높일 수 있다. $ n $개의 관측치에 대하여 종속 변수 벡터를 $ $, 독립 변수 행렬을 $ $, 계수 벡터를 $ $, 오차 벡터를 $ $이라 하면 모델은 $ = + $으로 간결하게 표기된다. |
| | |
| | 모델의 모수인 회귀 계수를 추정하기 위해 가장 널리 사용되는 방법은 [[최소제곱법]](Ordinary Least Squares, OLS)이다. 이는 실제 관측값과 모델에 의한 예측값의 차이인 [[잔차]](residual)의 제곱합을 최소화하는 계수를 찾는 과정이다. 행렬 연산을 통해 도출되는 회귀 계수의 추정량 $ $는 다음과 같은 정규 방정식(normal equation)의 해로 구해진다. |
| | |
| | $$ \hat{\boldsymbol{\beta}} = (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \mathbf{y} $$ |
| | |
| | 이때 독립 변수들 사이에 완전한 선형 관계가 존재하지 않아야 하며, 행렬 $ ^T $의 역행렬이 존재해야 한다는 조건이 충족되어야 한다. 만약 독립 변수 간에 강한 상관관계가 존재할 경우 [[다중 공선성]](multicollinearity) 문제가 발생하여 추정량의 분산이 커지고 모델의 신뢰성이 저하될 수 있다. |
| | |
| | 다중 회귀 분석에서 회귀 계수의 해석은 단순 회귀 분석과 차별화된다. 특정 독립 변수 $ X_j $의 계수인 $ _j $는 다른 모든 독립 변수의 값이 고정되어 있다는 전제하에(ceteris paribus), $ X_j $가 1단위 증가할 때 종속 변수 $ Y $가 평균적으로 변화하는 양을 나타낸다. 이를 [[편회귀 계수]](partial regression coefficient)라고 부르며, 이는 단순히 두 변수 사이의 상관관계가 아니라 다른 변수들의 영향을 배제한 상태에서의 순수한 영향력을 의미한다. |
| | |
| | 모델의 전체적인 유의성을 검정하기 위해서는 [[F-검정]](F-test)을 사용한다. 이는 모든 회귀 계수가 0이라는 [[귀무 가설]]을 설정하고, 모델이 통계적으로 유의미한 설명력을 갖는지 판단하는 절차이다. 또한 모델의 적합도를 평가하는 지표로 [[결정 계수]]($ R^2 $)가 활용되는데, 다중 회귀에서는 독립 변수의 수가 늘어날수록 $ R^2 $ 값이 기계적으로 상승하는 경향이 있다. 이를 보완하기 위해 변수의 개수와 표본 크기를 고려하여 [[자유도]]를 조정한 [[조정된 결정 계수]](Adjusted $ R^2 $)를 사용하여 모델의 효율성을 객관적으로 평가한다.((다중회귀에서 회귀계수 추정량의 특성, https://scienceon.kisti.re.kr/srch/selectPORSrchArticle.do?cn=JAKO202131541759391&dbt=NART |
| | )) |
| |
| === 편회귀 계수의 해석 === | === 편회귀 계수의 해석 === |
| |
| 다른 변수가 통제된 상태에서 특정 변수가 갖는 고유한 영향력을 해석하는 방법을 다룬다. | [[다중 선형 회귀]] 모델에서 각 독립 변수의 계수는 해당 변수가 [[종속 변수]]에 미치는 고유한 영향력을 나타내며, 이를 **편회귀 계수**(Partial Regression Coefficient)라고 정의한다. 일반적인 다중 회귀 식을 다음과 같이 상정할 때, |
| | |
| | $ Y = _0 + _1 X_1 + _2 X_2 + + _k X_k + $ |
| | |
| | 여기서 임의의 계수 $ _j $는 다른 모든 독립 변수 $ {X_1, , X_k} {X_j} $의 값이 일정하게 유지된다는 전제하에, $ X_j $가 한 단위 증가할 때 기대되는 $ Y $의 평균적인 변화량을 의미한다. 이러한 해석 방식을 경제학적 용어로 **세테리스 파리부스**(Ceteris Paribus), 즉 ’다른 모든 조건이 동일하다면’이라는 원칙에 따른 해석이라 한다. 이는 [[단순 선형 회귀]]에서의 계수가 변수 간의 단순한 상관관계를 포괄하는 것과 달리, 다중 회귀에서는 변수 간의 복잡한 연관성을 통계적으로 분리하여 특정 변수만의 순수한 기여도를 추출하려 시도함을 보여준다. |
| | |
| | 편회귀 계수의 수학적 본질은 [[프리슈-워-로벨 정리]](Frisch-Waugh-Lovell Theorem)를 통해 명확히 이해될 수 있다((Frisch, R., & Waugh, F. V. (1933). Partial Time Regressions as Compared with Individual Trends. Econometrica, 1(4), 387-401. http://www.jstor.org/stable/1907330 |
| | )). 이 정리에 따르면, 특정 독립 변수 $ X_j $의 계수 $ _j $를 구하는 과정은 두 단계의 보조 회귀로 환원될 수 있다. 먼저 $ Y $를 $ X_j $를 제외한 나머지 모든 독립 변수들에 대해 회귀 분석하여 그 [[잔차]](Residual)를 구하고, 다시 $ X_j $를 동일한 나머지 변수들에 대해 회귀 분석하여 그 잔차를 구한다. 이때 두 잔차 사이의 관계를 분석하여 얻은 계수는 원래의 다중 회귀 모델에서 얻은 $ _j $와 수치적으로 일치한다. 이는 편회귀 계수가 단순히 $ X_j $와 $ Y $의 관계를 보는 것이 아니라, 다른 변수들에 의해 설명되는 부분을 모두 제거(Partialling out)하고 남은 ’순수한 변동분’들 사이의 관계를 정량화한 것임을 시사한다. |
| | |
| | 이러한 특성 때문에 편회귀 계수는 독립 변수들 사이에 상관관계가 존재할 때 매우 중요한 의미를 갖는다. 만약 중요한 독립 변수가 모델에서 누락된다면, 포함된 변수의 계수는 누락된 변수의 영향력까지 흡수하여 왜곡될 수 있는데 이를 [[누락 변수 편향]](Omitted Variable Bias)이라 한다. 편회귀 계수는 관련 변수들을 모델에 포함함으로써 이러한 편향을 통제하고, 각 요인의 개별적 영향력을 분리해내는 역할을 수행한다. 그러나 독립 변수들 사이의 상관관계가 극도로 높은 [[다중 공선성]](Multicollinearity)이 존재할 경우, 특정 변수의 영향력을 고립시켜 추정하는 과정에서 계수의 [[분산]]이 커지고 해석의 신뢰성이 저하될 수 있다는 점에 유의해야 한다. |
| | |
| | 마지막으로 편회귀 계수의 크기 자체를 변수 간 영향력의 상대적 중요도로 직접 비교하기는 어렵다. 각 변수는 서로 다른 측정 단위를 가질 수 있기 때문이다. 예를 들어 소득(원)과 교육 연수(년)의 계수를 단순 비교하는 것은 무의미하다. 따라서 변수 간 상대적 기여도를 비교하기 위해서는 각 변수를 표준편차 단위로 변환하여 산출한 [[표준화 회귀 계수]](Standardized Regression Coefficient)를 활용하는 것이 일반적이다. 또한, 편회귀 계수가 통계적으로 유의미하더라도 이는 수치적인 연관성을 나타낼 뿐이며, 엄밀한 의미의 [[인과 관계]](Causality)를 확립하기 위해서는 연구 설계 단계에서의 이론적 타당성과 [[내생성]](Endogeneity) 문제에 대한 면밀한 검토가 병행되어야 한다. |
| |
| === 다중 공선성 문제 === | === 다중 공선성 문제 === |
| |
| 독립 변수 간의 강한 상관관계가 분석 결과에 미치는 부정적 영향과 해결책을 제시한다. | [[다중 선형 회귀 분석]](Multiple Linear Regression Analysis)에서 [[독립 변수]](Independent Variable)들 사이에 강한 선형 상관관계가 존재하는 현상을 다중 공선성(Multicollinearity)이라 한다. 고전적 선형 회귀 모델의 핵심 가정 중 하나는 독립 변수들 사이에 완전한 선형 관계가 존재하지 않아야 한다는 [[비공선성]](Non-multicollinearity)이다. 만약 특정 독립 변수가 다른 독립 변수들의 선형 결합으로 완벽하게 표현된다면, 이를 완전 다중 공선성(Perfect Multicollinearity)이라 하며, 이 경우 [[최소제곱법]](Ordinary Least Squares, OLS)을 통한 매개변수 추정 자체가 수치적으로 불가능해진다. 실제 분석 환경에서는 완전한 종속성보다는 변수 간의 높은 상관관계로 인해 발생하는 불완전 다중 공선성이 주로 문제된다. |
| | |
| | 행렬 대수학적 관점에서 살펴보면, 회귀 계수 벡터 $ $는 $ (X^T X)^{-1} X^T Y $의 형태로 도출된다. 여기서 독립 변수 행렬 $ X $의 열들 사이에 강한 선형 관계가 존재하면, 행렬 $ X^T X $의 [[행렬식]](Determinant) 값이 0에 매우 가깝게 수렴하게 된다. 이는 [[역행렬]]의 원소들을 비정상적으로 크게 만드는 결과를 초래하며, 결과적으로 회귀 계수의 [[분산]](Variance)을 급격히 팽창시킨다. 다중 공선성이 존재할 때 제 $ j $번째 회귀 계수 추정량 $ _j $의 분산은 다음과 같이 표현된다. |
| | |
| | $$ Var(\hat{\beta}_j) = \frac{\sigma^2}{\sum (X_{ij} - \bar{X}_j)^2} \cdot \frac{1}{1 - R_j^2} $$ |
| | |
| | 위 식에서 $ R_j^2 $는 해당 독립 변수 $ X_j $를 나머지 독립 변수들에 대해 회귀 분석하였을 때 얻어지는 [[결정 계수]]이다. $ R_j^2 $의 값이 1에 가까워질수록 분산은 무한히 커지게 된다. 이러한 분산의 증가는 개별 회귀 계수의 [[표준 오차]](Standard Error)를 증대시켜 [[t-검정]] 통계량을 낮추는 결과를 낳는다. 이로 인해 실제로는 종속 변수에 유의미한 영향을 미치는 변수임에도 불구하고 통계적으로 유의하지 않은 것으로 판정되는 [[제2종 오류]]를 범할 가능성이 커진다. |
| | |
| | 다중 공선성이 발생했을 때 나타나는 전형적인 징후 중 하나는 모델 전체의 유의성을 나타내는 [[F-검정]] 결과는 매우 유의미하고 결정 계수도 높게 나타나지만, 개별 변수들에 대한 t-검정 결과는 대부분 유의하지 않게 나타나는 모순적 상황이다. 또한, 데이터에 포함된 소수의 관측치만 변경되어도 회귀 계수의 추정치가 크게 요동치는 불안정성을 보이며, 심지어 계수의 부호가 이론적 기대나 상식과는 반대로 나타나는 등 모델의 [[해석 가능성]](Interpretability)을 심각하게 훼손한다. 이는 변수 간의 영향력이 서로 얽혀 있어 특정 변수만의 고유한 기여도를 분리해내기 어렵기 때문이다. |
| | |
| | 다중 공선성을 진단하기 위해 가장 널리 사용되는 지표는 [[분산 팽창 지수]](Variance Inflation Factor, VIF)이다. VIF는 앞서 언급한 분산 공식의 비례 인자인 $ 1 / (1 - R_j^2) $로 정의된다. 통상적으로 VIF 값이 10을 초과하면 해당 변수에 심각한 다중 공선성 문제가 있는 것으로 간주하며, 보수적인 기준에서는 4 또는 5를 임계치로 설정하기도 한다. 이외에도 독립 변수 행렬의 [[고윳값]](Eigenvalue)을 분석하여 가장 큰 고윳값과 가장 작은 고윳값의 비율을 측정한 [[상태 지수]](Condition Index)를 활용하거나, 독립 변수 간의 [[상관계수]] 행렬을 검토하는 방법이 병행된다. |
| | |
| | 이러한 문제를 해결하기 위한 실무적 방안으로는 우선 논리적으로 중복되거나 상관관계가 지나치게 높은 변수 중 하나를 모델에서 제거하는 방법이 있다. 또한, 유사한 성격의 변수들을 결합하여 새로운 지표를 생성하거나, [[주성분 분석]](Principal Component Analysis, PCA)을 통해 서로 독립적인 성분들로 변수를 변환하여 회귀 분석을 수행함으로써 공선성을 원천적으로 차단할 수 있다. 통계적 기법으로는 모델에 일정한 편향(Bias)을 허용하는 대신 분산을 획기적으로 줄이는 [[정규화]](Regularization) 방법론이 선호된다. 특히 계수의 크기에 제약을 가하는 [[릿지 회귀]](Ridge Regression)는 다중 공선성으로 인해 비대해진 회귀 계수를 수축시켜 모델의 예측 안정성을 높이는 데 탁월한 성능을 발휘한다. 만약 데이터 수집 단계에서 통제가 가능하다면, 표본의 크기를 대폭 늘려 추정량의 정밀도를 확보하는 것 역시 근본적인 해결책이 될 수 있다. |
| |
| ===== 모델의 가정과 진단 ===== | ===== 모델의 가정과 진단 ===== |
| |
| 회귀 분석의 결과가 유효하기 위해 충족해야 할 기본 가정들과 이를 검증하는 기법을 소개한다. | [[선형 회귀 모델]](Linear Regression Model)이 통계적으로 유효한 추론을 제공하고, [[최소제곱법]](Ordinary Least Squares, OLS)을 통해 얻은 추정량이 신뢰할 수 있는 성질을 갖기 위해서는 몇 가지 기본적인 가정이 충족되어야 한다. 이러한 가정들은 주로 오차항의 성질과 관련이 있으며, 가정이 위배될 경우 회귀 계수의 [[불편성]](Unbiasedness)이나 효율성이 상실되어 잘못된 결론에 도달할 위험이 있다. 따라서 모델 구축 후에는 반드시 [[잔차]](Residual)를 이용한 진단 과정을 거쳐 모델의 타당성을 검토해야 한다. |
| | |
| | 가장 먼저 전제되어야 할 가정은 선형성(Linearity)이다. 이는 [[종속 변수]]와 [[독립 변수]] 간의 관계가 매개변수에 대하여 선형적인 형태를 취해야 함을 의미한다. 모델이 다음과 같이 정의될 때, |
| | |
| | $$$ Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_k X_k + \epsilon $$$ |
| | |
| | 여기서 오차항 $\epsilon$의 기대값은 모든 독립 변수의 값에 대하여 0이어야 한다. 만약 실제 데이터의 구조가 곡선 형태를 띠고 있음에도 선형 모델을 적용한다면, 모델은 체계적인 편향을 갖게 되어 예측력이 저하된다. |
| | |
| | 둘째는 독립성(Independence)의 가정이다. 이는 임의의 두 오차항 $\epsilon_i$와 $\epsilon_j$ 사이에 상관관계가 존재하지 않아야 함을 의미한다. 특히 [[시계열 데이터]](Time Series Data)나 공간 데이터 분석에서 이 가정이 위배되는 경우가 많은데, 이를 [[자기 상관]](Autocorrelation)이라 한다. 오차항 간에 상관관계가 존재하면 회귀 계수의 [[표준 오차]](Standard Error)가 과소평가되어, 실제로는 유의미하지 않은 변수가 통계적으로 유의미한 것으로 오인될 수 있다. |
| | |
| | 셋째는 등분산성(Homoscedasticity)이다. 모든 독립 변수의 범위 내에서 오차항의 [[분산]]이 일정해야 한다는 가정이다. 즉, $Var(\epsilon_i) = \sigma^2$이 모든 $i$에 대해 성립해야 한다. 만약 독립 변수의 크기에 따라 오차의 변동 폭이 달라지는 [[이분산성]](Heteroscedasticity)이 나타나면, 최소제곱 추정량은 여전히 불편성을 유지하지만 더 이상 최소 분산을 갖는 [[최선 선형 불편 추정량]](Best Linear Unbiased Estimator, BLUE)이 되지 못한다((5.2.4.5. Check of assumptions, https://itl.nist.gov/div898/handbook/pri/section2/pri245.htm |
| | )). |
| | |
| | 마지막으로 정규성(Normality)의 가정이 있다. 오차항이 평균이 0인 [[정규 분포]]를 따른다는 가정은 표본의 크기가 작을 때 특히 중요하다. 이 가정은 회귀 계수에 대한 [[가설 검정]](Hypothesis Testing)이나 [[신뢰 구간]](Confidence Interval) 산출의 근거가 되는 t-분포와 F-분포의 이론적 토대가 된다. 대표본의 경우 [[중심한계정리]]에 의해 정규성 가정이 다소 완화될 수 있으나, 소표본 분석에서는 정규성 위배가 검정의 신뢰도를 크게 떨어뜨린다. |
| | |
| | 모델의 가정이 적절히 지켜졌는지 확인하는 가장 보편적인 방법은 [[잔차 분석]](Residual Analysis)이다. 모델 적합 후 계산된 잔차를 시각화하여 특정 패턴이 나타나는지 조사한다. 독립 변수나 예측값에 대한 잔차의 산점도에서 잔차가 무작위적으로 분포하지 않고 깔때기 모양이나 곡선 패턴을 보인다면, 이는 등분산성이나 선형성 가정이 위배되었음을 시사한다((Regression Diagnostics, https://www.itl.nist.gov/div898/software/dataplot/refman1/auxillar/regrdiag.htm |
| | )). 또한 [[Q-Q 플롯]](Quantile-Quantile Plot)을 통해 잔차가 직선상에 놓이는지를 확인하여 정규성을 진단할 수 있다. 통계적 검정 방법으로는 독립성 검정을 위한 [[더빈-왓슨 검정]](Durbin-Watson test), 정규성 검정을 위한 [[샤피로-윌크 검정]](Shapiro-Wilk test) 등이 활용된다. |
| |
| ==== 가우스 마르코프 정리 ==== | ==== 가우스 마르코프 정리 ==== |
| |
| 최소제곱 추정량이 최선 선형 불편 추정량이 되기 위한 조건들을 체계적으로 정리한다. | 가우스 마르코프 정리(Gauss-Markov Theorem)는 [[선형 회귀 모델]](Linear Regression Model)에서 [[최소제곱법]](Ordinary Least Squares, OLS)을 통해 도출한 추정량이 일정한 가정하에서 가장 효율적인 통계적 특성을 가짐을 증명하는 이론이다. 이 정리는 추정량의 우수성을 판단하는 기준인 [[최선 선형 불편 추정량]](Best Linear Unbiased Estimator, BLUE)의 존재 조건을 체계적으로 규정하며, [[통계학]]과 [[계량경제학]]의 이론적 근간을 형성한다. 가우스 마르코프 정리에 따르면, 오차항에 대한 특정 가정들이 충족될 때 OLS 추정량은 모든 선형 불편 추정량 중에서 가장 작은 분산을 갖는다. |
| | |
| | OLS 추정량이 최선 선형 불편 추정량으로서의 지위를 갖기 위해서는 다섯 가지의 고전적 가정이 전제되어야 한다. 첫째는 모델의 선형성(Linearity)이다. 이는 종속 변수 $ Y $와 독립 변수 $ X $ 사이의 관계가 모수(Parameter) $ $에 대해 선형적인 형태인 $ Y = X+ $으로 표현되어야 함을 의미한다. 둘째는 오차항의 조건부 평균이 0이어야 한다는 외생성(Exogeneity) 가정이다. 수학적으로는 $ E(| X) = 0 $으로 표기하며, 이는 독립 변수가 오차항에 포함된 다른 요인들과 상관관계가 없음을 나타낸다. 셋째는 모든 관측치에서 오차항의 분산이 일정해야 한다는 [[등분산성]](Homoscedasticity) 가정이다. 넷째는 서로 다른 관측치의 오차항 사이에 상관관계가 존재하지 않아야 한다는 무상관성(No Autocorrelation) 가정이다. 마지막으로 독립 변수들 사이에 완전한 선형 관계가 존재하지 않아야 한다는 비공선성(No Perfect Collinearity) 가정이 필요하다. |
| | |
| | 이러한 가정들이 충족될 때 OLS 추정량 $ $가 갖는 BLUE로서의 성질은 다음과 같이 정의된다. 우선 선형성(Linear)은 추정량 $ $가 종속 변수 $ Y $의 선형 결합으로 표현될 수 있음을 의미한다. 불편성(Unbiased)은 추정량의 기댓값이 실제 모수의 값과 일치함, 즉 $ E() = $를 만족하여 체계적인 편향이 존재하지 않음을 뜻한다. 마지막으로 최선(Best) 혹은 효율성(Efficiency)은 모든 선형 불편 추정량들 중에서 OLS 추정량의 분산이 최소가 됨을 의미한다. 임의의 다른 선형 불편 추정량을 $ $라고 할 때, 가우스 마르코프 정리는 다음의 부등식이 성립함을 입증한다. |
| | |
| | $$ Var(\hat{\beta}) \leq Var(\tilde{\beta}) $$ |
| | |
| | 주목할 점은 가우스 마르코프 정리가 성립하기 위해 오차항이 반드시 [[정규 분포]](Normal Distribution)를 따를 필요는 없다는 것이다. 오차항의 분포에 대한 가정 없이도 상기된 기본 가정들만 충족된다면 OLS 추정량은 선형 추정량의 범주 안에서 최소 분산을 보장받는다. 그러나 만약 등분산성 가정이 위배되어 [[이분산성]](Heteroscedasticity)이 나타나거나 오차항 간에 자기상관이 존재할 경우, OLS 추정량은 여전히 불편 추정량일 수는 있으나 더 이상 최선(Best)의 성질을 유지하지 못하게 된다. 이러한 상황에서는 [[일반화 최소제곱법]](Generalized Least Squares, GLS)과 같은 대안적 추정 기법이 요구된다. 최근의 연구는 이러한 고전적 정리를 현대적인 고차원 데이터 환경이나 완화된 가정 하에서도 적용할 수 있도록 확장하는 방향으로 전개되고 있다((A Modern Gauss–Markov Theorem, https://onlinelibrary.wiley.com/doi/10.3982/ECTA19255?af=R |
| | )). |
| |
| ==== 잔차 분석 ==== | ==== 잔차 분석 ==== |
| |
| 모델 적합 후 남은 잔차를 통해 모델의 타당성을 시각적, 통계적으로 검정하는 방법을 다룬다. | 회귀 모델의 매개변수를 추정한 후에는 해당 모델이 데이터의 구조를 적절히 요약하고 있는지, 그리고 [[선형 회귀]]의 기본 가정들을 충족하는지 검증하는 과정이 필수적이다. 이를 위해 활용되는 기법이 잔차 분석(Residual Analysis)이다. 잔차(Residual)는 관측값 $ Y_i $와 모델에 의해 예측된 값 $ _i $의 차이인 $ e_i = Y_i - _i $로 정의되며, 이는 이론적 모형에서의 [[오차항]](Error Term)에 대한 추정치 역할을 수행한다. [[최소제곱법]](Ordinary Least Squares)을 통해 도출된 회귀 계수가 최선 선형 불편 추정량(Best Linear Unbiased Estimator, BLUE)이 되기 위해서는 오차항이 독립성, 등분산성, 정규성을 가져야 하므로, 잔차의 분포와 패턴을 분석함으로써 모델의 타당성을 정밀하게 진단할 수 있다. |
| | |
| | 잔차 분석의 가장 기본적인 도구는 잔차 산점도(Residual Plot)이다. 일반적으로 가로축에는 예측값($ $)이나 독립 변수($ X $)를, 세로축에는 잔차($ e $)를 배치하여 시각화한다. 만약 모델이 데이터의 선형적 관계를 적절히 포착하였다면, 잔차들은 특정한 형태나 추세 없이 0을 중심으로 무작위하게 흩어져 있어야 한다. 만약 잔차 산점도에서 곡선 형태의 패턴이 관찰된다면 이는 모델의 [[선형성]](Linearity) 가정이 위배되었음을 시사하며, 고차항이나 변수 변환의 도입이 필요함을 의미한다. 또한, 예측값이 커짐에 따라 잔차의 변동 폭이 커지거나 작아지는 깔때기 모양의 패턴이 나타나면 [[이분산성]](Heteroscedasticity)이 존재하는 것으로 판단한다. 이분산성은 표준 오차의 추정치를 왜곡하여 [[가설 검정]]의 신뢰도를 떨어뜨리므로, [[가중 최소제곱법]](Weighted Least Squares) 등을 통한 보정이 요구된다. |
| | |
| | 오차항의 [[정규 분포]] 가정을 검정하기 위해서는 정규 확률 도표(Normal Probability Plot) 또는 Q-Q 플롯(Quantile-Quantile Plot)이 널리 사용된다. 이 도표는 잔차의 누적 분포를 표준 정규 분포의 분위수와 비교하여 시각화한다. 잔차들이 이론적 직선 위에 긴밀하게 배열된다면 정규성 가정을 만족하는 것으로 해석할 수 있다. 시각적 판단의 주관성을 배제하기 위해 [[샤피로-윌크 검정]](Shapiro-Wilk test)이나 콜모고로프-스미르노프 검정(Kolmogorov-Smirnov test)과 같은 통계적 가설 검정을 병행하기도 한다. 정규성 가정은 표본의 크기가 충분히 클 경우 [[중심 한계 정리]]에 의해 완화될 수 있으나, 소표본 분석에서는 추론의 유효성을 결정짓는 핵심적인 요소가 된다. |
| | |
| | 데이터가 시간의 흐름에 따라 수집된 [[시계열]] 구조를 갖는 경우, 잔차 간의 [[자기상관]](Autocorrelation) 여부를 반드시 확인해야 한다. 오차항들이 서로 독립적이지 않고 상관관계를 가질 경우, 회귀 계수의 분산이 과소 추정되어 통계적 유의성이 과대평가될 위험이 있다. 이를 진단하기 위해 [[더빈-왓슨 검정]](Durbin-Watson test)이 주로 사용된다. 더빈-왓슨 통계량 $ d $는 0에서 4 사이의 값을 가지며, 2에 가까울수록 자기상관이 없음을 의미하고, 0이나 4에 가까울수록 각각 양의 자기상관이나 음의 자기상관이 존재함을 나타낸다. |
| | |
| | 마지막으로 잔차 분석은 모델의 전체적인 경향성에서 크게 벗어난 [[이상치]](Outlier) 및 영향력 관측치(Influential Observation)를 식별하는 데 기여한다. 단순히 잔차가 큰 관측치뿐만 아니라, 회귀 직선의 기울기에 과도한 영향을 미치는 레버리지(Leverage)가 높은 데이터를 탐색해야 한다. 이를 위해 쿡의 거리(Cook’s Distance)와 같은 지표가 활용된다. 쿡의 거리는 특정 관측치를 제외했을 때 회귀 계수 벡터의 변화 정도를 수치화한 것으로, 통상적으로 0.5 또는 1 이상의 값을 가지는 관측치는 모델의 안정성을 해칠 수 있는 위험 요인으로 간주하여 면밀한 검토를 수행한다.((Cook, R. D., “Detection of Influential Observation in Linear Regression”, https://www.jstor.org/stable/1267334 |
| | )) 이러한 다각적인 잔차 진단 과정을 통해 연구자는 모델의 통계적 유의성을 확보하고, 분석 결과에 기초한 예측과 추론의 신뢰도를 극대화할 수 있다.((NIST/SEMATECH e-Handbook of Statistical Methods, “Residual Analysis”, https://www.itl.nist.gov/div898/handbook/pri/section2/pri24.htm |
| | )) |
| |
| === 선형성 및 독립성 검정 === | === 선형성 및 독립성 검정 === |
| |
| 변수 간의 선형 관계와 오차항의 독립적 분포 여부를 확인하는 절차를 설명한다. | [[선형 회귀 모델]](Linear Regression Model)이 정당성을 갖기 위한 가장 근본적인 전제는 [[독립 변수]](Independent Variable)와 [[종속 변수]](Dependent Variable) 사이의 관계가 선형적이어야 한다는 [[선형성]](Linearity) 가정이다. 선형성 가정이 위배될 경우, 모델은 데이터의 체계적인 패턴을 포착하지 못하여 [[편향]](Bias)된 추정치를 산출하게 된다. 이를 검증하는 가장 직관적인 방법은 잔차 산점도(Residual Plot)를 분석하는 것이다. 가로축에 모델의 예측값($ $)을, 세로축에 [[잔차]](Residual, $ e $)를 배치하여 시각화했을 때, 잔차들이 특정 경향성 없이 무작위로 분포해야 선형성 가정이 충족된 것으로 간주한다. 만약 잔차의 분포가 곡선 형태를 띠거나 특정 방향으로 치우친다면, 이는 변수 간의 관계가 비선형적이거나 모델에 고차항 또는 [[상호작용항]](Interaction Term)이 누락되었음을 시사한다. 보다 엄밀한 통계적 검정으로는 [[램지의 RESET 검정]](Ramsey’s Regression Equation Specification Error Test, RESET)이 활용될 수 있는데, 이는 독립 변수의 고차항을 모델에 추가하여 그 유의성을 검토함으로써 모델의 설정 오류(Specification Error)를 탐지한다. |
| | |
| | 오차항의 [[독립성]](Independence) 검정은 관측치 간의 오차가 서로 상관되어 있지 않아야 한다는 가정을 확인하는 절차이다. 특히 데이터가 시간의 흐름에 따라 수집되는 [[시계열 분석]](Time Series Analysis) 환경에서 이 가정의 충족 여부는 매우 중요하다. 오차항 사이에 상관관계가 존재하는 [[자기상관]](Autocorrelation) 현상이 발생하면, [[최소제곱법]](Ordinary Least Squares, OLS)으로 추정된 회귀 계수의 [[분산]]이 과소 추정되어 통계적 유의성 검정의 신뢰도가 하락하게 된다. 독립성을 검정하기 위해 널리 사용되는 지표는 [[더빈-왓슨 검정]](Durbin-Watson test)이다. 더빈-왓슨 통계량 $ d $는 다음과 같이 정의된다. |
| | |
| | $$ d = \frac{\sum_{t=2}^n (e_t - e_{t-1})^2}{\sum_{t=1}^n e_t^2} $$ |
| | |
| | 여기서 $ e_t $는 $ t $ 시점에서의 잔차를 의미한다. 통계량 $ d $는 0에서 4 사이의 값을 가지며, 일반적으로 2에 가까울수록 오차항 간의 자기상관이 없는 독립적인 상태로 해석한다. $ d $값이 0에 가까우면 양의 자기상관이, 4에 가까우면 음의 자기상관이 존재함을 뜻한다. |
| | |
| | 독립성 가정을 위반하는 주요 원인 중 하나는 모델에서 중요한 설명 변수가 누락되었거나 시계열 데이터 고유의 [[추세]](Trend) 및 [[계절성]](Seasonality)이 적절히 통제되지 않았기 때문이다. 이를 보완하기 위해 [[일반화 최소제곱법]](Generalized Least Squares, GLS)이나 [[자기회귀 모델]](Autoregressive Model) 등의 확장된 방법론이 동원되기도 한다. 선형성과 독립성에 대한 종합적인 진단은 모델의 예측 성능을 보장할 뿐만 아니라, 회귀 계수의 통계적 추론이 유효하기 위한 필수적인 단계이다. 이러한 가정들이 충족되지 않은 상태에서 도출된 결론은 데이터의 본질적인 구조를 왜곡할 위험이 크므로, 분석가는 잔차 분석을 통해 모델의 적합성을 끊임없이 재고해야 한다.((Global Validation of Linear Model Assumptions, https://ncbi.nlm.nih.gov/pmc/articles/PMC2820257/pdf/nihms2365.xml.fixed.pdf |
| | )) |
| |
| === 등분산성 및 정규성 검정 === | === 등분산성 및 정규성 검정 === |
| |
| 오차항의 분산이 일정하고 정규 분포를 따르는지 확인하는 기법을 기술한다. | [[선형 회귀 모델]]의 유효성을 보장하기 위해 반드시 검증해야 하는 핵심 가정 중 하나는 [[오차항]](Error term)의 [[등분산성]](Homoscedasticity)이다. 등분산성이란 모든 독립 변수 값에 대하여 오차항의 [[분산]]이 일정한 상수를 유지해야 함을 의미한다. 만약 오차항의 분산이 독립 변수의 크기나 특정 조건에 따라 변화한다면 이를 [[이분산성]](Heteroscedasticity)이라 한다. 이분산성이 존재할 경우, [[최소제곱법]](Ordinary Least Squares, OLS)을 통해 얻은 회귀 계수 추정량은 여전히 [[불편성]](Unbiasedness)을 유지하지만, 더 이상 [[가우스 마르코프 정리]]가 보장하는 [[최선 선형 불편 추정량]](Best Linear Unbiased Estimator, BLUE)이 되지 못한다. 즉, 추정량의 효율성이 상실되어 표준 오차가 왜곡되며, 결과적으로 $ t $ 검정이나 $ F $ 검정과 같은 [[가설 검정]]의 신뢰도가 저하된다. |
| | |
| | 등분산성을 진단하는 가장 직관적인 방법은 [[잔차]](Residual)를 활용한 시각적 분석이다. 일반적으로 가로축에 독립 변수나 예측값($ $)을 두고 세로축에 잔차를 배치한 잔차 산점도를 작성한다. 등분산 가정이 충족된다면 잔차들은 특정 패턴 없이 무작위로 분포해야 하며, 만약 잔차의 폭이 나팔 모양으로 넓어지거나 좁아지는 형태를 보인다면 이분산성을 의심할 수 있다. 보다 정밀한 통계적 검정을 위해서는 [[브로이슈-패건 검정]](Breusch-Pagan test)이나 [[화이트 검정]](White test)이 주로 사용된다. 브로이슈-패건 검정은 잔차의 제곱을 종속 변수로 하고 독립 변수들을 설명 변수로 하는 보조 회귀식을 구성하여 분산의 변동성을 확인한다.((A Simple Test for Heteroscedasticity and Random Coefficient Variation, https://econpapers.repec.org/RePEc:ecm:emetrp:v:47:y:1979:i:5:p:1287-94 |
| | )) 화이트 검정은 이보다 일반적인 형태로, 독립 변수들의 제곱항과 상호작용항까지 고려하여 비선형적인 이분산성 패턴까지 포착할 수 있는 장점이 있다.((A Heteroskedasticity-Consistent Covariance Matrix Estimator and a Direct Test for Heteroskedasticity, https://ideas.repec.org/a/ecm/emetrp/v48y1980i4p817-38.html |
| | )) |
| | |
| | 오차항의 [[정규성]](Normality) 가정은 회귀 모델의 모수적 추론을 위해 필수적이다. 고전적 선형 회귀 모델에서는 오차항이 평균이 0이고 분산이 $ ^2 $인 [[정규 분포]]를 따른다고 가정한다. 이러한 가정이 충족될 때, 표본의 크기가 작더라도 회귀 계수 추정량의 분포가 정규성을 띠게 되어 정확한 [[신뢰 구간]] 산출과 유의성 검정이 가능해진다. 대규모 표본의 경우 [[중심 극한 정리]]에 의해 추정량이 점근적으로 정규성을 갖게 되나, 소규모 표본 연구나 정밀한 예측 모델링에서는 정규성 위배가 모델의 강건성을 크게 해칠 수 있다. |
| | |
| | 정규성을 검정하기 위한 시각적 도구로는 [[Q-Q 플롯]](Quantile-Quantile Plot)이 대표적이다. 이는 이론적 정규 분포의 분위수와 실제 잔차의 분위수를 대응시킨 도표로, 잔차들이 직선상에 위치할수록 정규성 가정을 잘 만족하는 것으로 해석한다. 수치적 검정 방법으로는 [[샤피로-윌크 검정]](Shapiro-Wilk test)과 [[자크-베라 검정]](Jarque-Bera test)이 널리 활용된다. 특히 자크-베라 검정은 분포의 [[왜도]](Skewness)와 [[첨도]](Kurtosis)가 정규 분포의 특성(왜도 0, 첨도 3)에서 얼마나 벗어나 있는지를 기초로 검정 통계량을 산출한다.((A Test for Normality of Observations and Regression Residuals, https://www.jstor.org/stable/1403192 |
| | )) 만약 정규성 가정이 위배되었다면, 변수 변환(Transformation) 기법을 적용하거나 [[일반화 선형 모델]] 등 비모수적 혹은 준모수적 대안을 고려해야 한다. |
| |
| ===== 확장된 회귀 모델 ===== | ===== 확장된 회귀 모델 ===== |
| |
| 기본 선형 모델의 한계를 극복하기 위해 개발된 다양한 형태의 회귀 분석 기법을 다룬다. | 전통적인 [[최소제곱법]](Ordinary Least Squares, OLS)에 기반한 [[선형 회귀]] 모델은 모델의 단순성과 해석의 용이성이라는 강력한 장점을 지니지만, 실제 데이터가 가진 복잡한 구조를 모두 수용하기에는 일정한 한계가 존재한다. 특히 독립 변수와 종속 변수 간의 관계가 비선형적이거나, 오차항이 [[정규 분포]]를 따르지 않는 경우, 또는 변수의 개수가 관측치에 비해 지나치게 많은 경우에는 통계적 추론의 신뢰성이 저하된다. 이러한 제약을 극복하고 모델의 예측 성능과 일반화 능력을 향상시키기 위해 다양한 확장된 회귀 모델들이 제안되어 왔다. |
| | |
| | 가장 먼저 고려할 수 있는 확장은 변수 간의 비선형 관계를 모델링하는 것이다. [[다항 회귀]](Polynomial Regression)는 독립 변수의 고차항을 추가함으로써 곡선 형태의 관계를 파악한다. 이는 수학적으로는 선형 회귀의 틀 안에 있으나, 기하학적으로는 비선형적인 결정 경계를 생성할 수 있게 한다. 보다 유연한 대응을 위해 데이터를 구간별로 나누어 적합시키는 [[스플라인 회귀]](Spline Regression)나 [[일반화 가법 모델]](Generalized Additive Model, GAM) 등이 활용되기도 한다. 이러한 방식은 특정 함수 형태를 사전에 가정하기 어려운 복잡한 데이터 구조를 학습하는 데 유리하다. |
| | |
| | 종속 변수의 분포가 정규성을 벗어날 때는 [[일반화 선형 모델]](Generalized Linear Model, GLM)이 핵심적인 역할을 수행한다. [[존 넬더]](John Nelder)와 [[로버트 웨더번]](Robert Wedderburn)에 의해 체계화된 이 모델은 종속 변수의 기댓값과 선형 예측자 사이를 연결하는 [[연결 함수]](Link function)를 도입하여, 지수 가족(Exponential family)에 속하는 다양한 분포를 수용한다((Nelder, J. A., & Wedderburn, R. W. M. (1972). Generalized Linear Models. Journal of the Royal Statistical Society. Series A (General), 135(3), 370-384. https://www.jstor.org/stable/2344614 |
| | )). 이를 통해 [[이항 분포]]를 따르는 범주형 데이터를 처리하는 [[로지스틱 회귀]]나, 희귀 사건의 발생 횟수를 분석하는 [[포아송 회귀]] 등이 하나의 통일된 이론적 체계 안에서 다루어질 수 있게 되었다. |
| | |
| | 데이터의 차원이 높거나 변수 간의 [[다중 공선성]] 문제가 심각할 경우에는 [[정규화 회귀]](Regularized Regression) 방법론이 적용된다. 이는 손실 함수에 계수의 크기에 비례하는 페널티 항을 추가하여 모델의 복잡도를 제어하는 기법이다. [[릿지 회귀]](Ridge Regression)는 계수의 제곱합을 제한하는 $ L_2 $ 정규화를 통해 계수의 크기를 축소함으로써 모델의 분산을 낮춘다((Hoerl, A. E., & Kennard, R. W. (1970). Ridge Regression: Biased Estimation for Nonorthogonal Problems. Technometrics, 12(1), 55-67. https://www.tandfonline.com/doi/abs/10.1080/00401706.1970.10488634 |
| | )). 반면 [[로버트 팁시라니]](Robert Tibshirani)가 제안한 [[라쏘 회귀]](Lasso Regression)는 계수의 절대값 합을 제한하는 $ L_1 $ 정규화를 사용하여, 중요도가 낮은 변수의 계수를 정확히 0으로 수렴하게 함으로써 [[변수 선택]](Variable selection) 기능을 동시에 수행한다((Tibshirani, R. (1996). Regression Shrinkage and Selection via the Lasso. Journal of the Royal Statistical Society. Series B (Methodological), 58(1), 267-288. https://academic.oup.com/jrsssb/article/58/1/267/7027929 |
| | )). |
| | |
| | 또한, 실측 데이터에 포함된 [[이상치]](Outlier)로 인해 최소제곱 추정량이 왜곡되는 문제를 해결하기 위해 [[로버스트 회귀]](Robust Regression)가 사용된다. 이는 오차의 제곱 대신 절대값이나 [[후버 손실]](Huber loss) 함수를 사용하여 극단적인 관측치의 영향을 억제한다. 이처럼 확장된 회귀 모델들은 선형 모델의 기본 가정을 완화하거나 보완함으로써, 현대 데이터 과학의 복잡다단한 요구를 충족시키는 정교한 분석 도구로 기능하고 있다. |
| |
| ==== 일반화 선형 모델 ==== | ==== 일반화 선형 모델 ==== |
| |
| 종속 변수가 정규 분포를 따르지 않는 경우에 적용할 수 있는 포괄적인 모델 체계를 설명한다. | 고전적 [[선형 회귀]](Linear Regression) 모델은 [[종속 변수]](Dependent Variable)가 연속형이며 [[정규 분포]](Normal Distribution)를 따르고, 오차항의 [[등분산성]](Homoscedasticity)이 유지된다는 엄격한 가정을 전제로 한다. 그러나 실제 연구 데이터는 이분법적 선택, 빈도수, 혹은 비대칭적인 분포를 보이는 경우가 많아 이러한 가정을 충족하지 못하는 상황이 빈번하게 발생한다. [[존 넬더]](John Nelder)와 [[로버트 웨더번]](Robert Wedderburn)에 의해 1972년 제안된 [[일반화 선형 모델]](Generalized Linear Model, GLM)은 이러한 한계를 극복하기 위해 고안되었다. GLM은 선형 모델의 구조적 장점을 유지하면서도 종속 변수가 [[지수 가족]](Exponential Family)에 속하는 다양한 확률 분포를 따를 수 있도록 허용하는 통합적인 통계 체계를 제공한다((Nelder, J. A., & Wedderburn, R. W. M. (1972). Generalized Linear Models. Journal of the Royal Statistical Society. Series A (General), 135(3), 370–384. https://doi.org/10.2307/2344614 |
| | )). |
| | |
| | 일반화 선형 모델은 크게 세 가지 핵심 구성 요소로 정의된다. 첫째는 확률 성분(Random Component)이다. 이는 종속 변수 $ Y $의 확률 분포를 규정하는 부분으로, 정규 분포뿐만 아니라 [[베르누이 분포]](Bernoulli Distribution), [[이항 분포]](Binomial Distribution), [[포아송 분포]](Poisson Distribution), [[감마 분포]](Gamma Distribution) 등을 포함한다. 이러한 유연성을 통해 종속 변수가 음수가 될 수 없는 빈도 데이터이거나, 특정 범주에 속할 확률인 경우에도 데이터의 특성을 왜곡하지 않고 모델링할 수 있다. |
| | |
| | 둘째는 체계적 성분(Systematic Component)이다. 이는 독립 변수들의 선형 결합으로 이루어진 선형 예측자(Linear Predictor) $ $를 의미한다. 독립 변수 $ X_1, X_2, , X_p $와 그에 대응하는 회귀 계수 $ _0, _1, , _p $의 조합으로 다음과 같이 표현된다. $$ \eta = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_p X_p $$ 이 성분은 고전적 선형 회귀와 동일한 형태를 취하며, 여러 독립 변수가 종속 변수에 미치는 영향력을 가산적으로 결합하는 역할을 한다. |
| | |
| | 셋째는 연결 함수(Link Function) $ g() $이다. 연결 함수는 종속 변수의 기댓값 $ = E(Y) $와 선형 예측자 $ $ 사이의 수학적 관계를 설정하는 가교 역할을 수행한다. 즉, $ g() = $의 관계가 성립한다. 고전적 선형 회귀에서는 연결 함수가 항등 함수(Identity Function)인 특수한 경우에 해당한다. 그러나 종속 변수가 0과 1 사이의 값만을 가져야 하는 확률 데이터라면 [[로짓]](Logit) 함수를 사용하고, 항상 양수여야 하는 빈도 데이터라면 [[로그]](Log) 함수를 연결 함수로 채택한다. 이를 통해 비선형적인 관계를 선형적인 틀 안에서 해석할 수 있게 된다. |
| | |
| | 일반화 선형 모델에서의 모수 추정은 [[최소제곱법]](Ordinary Least Squares) 대신 [[최대우도법]](Maximum Likelihood Estimation, MLE)을 주로 사용한다. 이는 관측된 데이터가 특정 파라미터하에서 발생할 가능성을 최대화하는 회귀 계수를 찾는 과정이다. 수치적으로는 반복적 가중 최소제곱법(Iteratively Reweighted Least Squares, IRLS) 알고리즘을 통해 해를 구하는 것이 일반적이다. 모델의 적합도를 평가하기 위해서는 [[이탈도]](Deviance)라는 지표를 활용하는데, 이는 관측값이 모델에 의해 얼마나 잘 설명되는지를 측정하며 고전적 회귀 분석의 [[잔차 제곱합]](Residual Sum of Squares)과 유사한 통계적 의미를 지닌다. |
| | |
| | 일반화 선형 모델의 도입은 통계적 분석의 지평을 획기적으로 넓혔다. 단일한 이론적 프레임워크 내에서 다양한 형태의 데이터를 다룰 수 있게 됨에 따라, 연구자는 데이터의 분포를 강제로 변환하거나 부적절한 선형 가정을 강요하지 않고도 정밀한 분석을 수행할 수 있게 되었다. 이는 현대 [[데이터 과학]]과 [[계량 경제학]], [[보건학]] 및 [[사회과학]] 전반에서 실증 분석의 표준적인 방법론으로 자리 잡는 토대가 되었다. |
| |
| === 로지스틱 회귀 분석 === | === 로지스틱 회귀 분석 === |
| |
| 이분법적 선택이나 범주형 종속 변수를 예측하기 위한 회귀 기법을 다룬다. | [[로지스틱 회귀 분석]](Logistic Regression Analysis)은 [[종속 변수]]가 범주형(Categorical) 데이터, 특히 이항(Binary) 형태를 가질 때 독립 변수와 종속 변수 간의 관계를 설명하기 위해 고안된 통계적 방법론이다. 전통적인 [[선형 회귀]] 모델은 종속 변수가 연속형 변수이며 [[정규 분포]]를 따른다는 가정을 전제로 한다. 그러나 종속 변수가 ‘성공’ 혹은 ‘실패’, ‘생존’ 혹은 ’사망’과 같이 두 가지 상태만을 갖는 경우, 선형 모델을 그대로 적용하면 예측값이 0과 1의 범위를 벗어날 수 있으며 오차항의 [[등분산성]] 가정이 위배되는 문제가 발생한다. 이러한 한계를 극복하기 위해 로지스틱 회귀는 [[일반화 선형 모델]](Generalized Linear Model)의 틀 안에서 [[연결 함수]](Link Function)를 활용하여 종속 변수의 발생 확률을 모델링한다. |
| | |
| | 로지스틱 회귀의 핵심은 종속 변수가 1일 확률을 $ P $라고 할 때, 이를 직접 선형 결합으로 나타내지 않고 [[승산]](Odds)의 개념을 도입하는 데 있다. 승산은 사건이 발생할 확률과 발생하지 않을 확률의 비인 $ $로 정의된다. 여기에 자연로그를 취한 값을 [[로짓]](Logit)이라 하며, 로지스틱 회귀 모델은 이 로짓 값을 독립 변수들의 선형 결합으로 표현한다. 수학적 형태는 다음과 같다. |
| | |
| | $$ \ln\left(\frac{P}{1-P}\right) = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_k X_k $$ |
| | |
| | 위 식에서 좌변의 로짓은 $ -$에서 $ +$ 사이의 값을 가질 수 있게 되어, 우변의 선형 회귀식과 수치적으로 대응이 가능해진다. 이를 확률 $ P $에 대해 정리하면 다음과 같은 [[로지스틱 함수]](Logistic Function) 또는 [[시그모이드 함수]](Sigmoid Function)의 형태를 얻는다. |
| | |
| | $$ P = \frac{1}{1 + e^{-(\beta_0 + \sum \beta_i X_i)}} $$ |
| | |
| | 이 함수는 $ S $자 형태의 곡선을 그리며, 어떠한 독립 변수 값이 입력되더라도 출력되는 확률값 $ P $가 항상 0과 1 사이의 범위에 머물도록 보장한다. 이는 이분법적 선택 상황에서 특정 사건의 발생 가능성을 정량화하는 데 매우 적합한 특성이다. |
| | |
| | 모델의 모수인 [[회귀 계수]]를 추정할 때는 선형 회귀에서 사용되는 [[최소제곱법]] 대신 [[최대우도법]](Maximum Likelihood Estimation, MLE)을 사용한다. 최대우도법은 관측된 데이터가 나타날 확률인 [[우도 함수]](Likelihood Function)를 최대화하는 계수 값을 찾는 수치적 최적화 과정을 거친다. 로지스틱 회귀에서 각 회귀 계수 $ _i $의 의미는 다른 모든 독립 변수가 고정된 상태에서 $ X_i $가 1단위 증가할 때, 로그 승산(Log-odds)이 변화하는 양을 나타낸다. 이를 실제 직관적으로 해석하기 위해 계수에 지수 함수를 취한 $ e^{_i} $를 사용하는데, 이는 해당 독립 변수의 변화에 따른 [[오즈비]](Odds Ratio)의 변화량을 의미한다. |
| | |
| | 로지스틱 회귀 분석은 [[사회과학]], [[의학]], [[마케팅]] 등 다양한 분야에서 널리 활용된다. 예를 들어 환자의 특정 임상적 수치들을 바탕으로 질병의 유무를 예측하거나, 소비자의 인구통계학적 특성을 통해 특정 상품의 구매 여부를 판단하는 데 필수적인 도구로 쓰인다. 또한 종속 변수의 범주가 셋 이상인 경우에는 [[다항 로지스틱 회귀]](Multinomial Logistic Regression)로 확장할 수 있으며, 범주 간에 순서가 존재하는 경우에는 [[순서형 로지스틱 회귀]](Ordinal Logistic Regression)를 적용하여 보다 정교한 분석을 수행할 수 있다. 모델의 적합도는 [[로그 우도]](Log-likelihood) 기반의 지표나 [[호스머-레메쇼 검정]](Hosmer-Lemeshow test), 그리고 분류 정확도를 나타내는 [[혼동 행렬]](Confusion Matrix) 등을 통해 종합적으로 평가된다. |
| |
| === 포아송 회귀 분석 === | === 포아송 회귀 분석 === |
| |
| 단위 시간이나 공간 내에서 발생하는 사건의 횟수를 분석하는 모델을 소개한다. | 포아송 회귀 분석(Poisson Regression Analysis)은 종속 변수가 특정 단위 시간, 공간, 혹은 정해진 구역 내에서 발생하는 사건의 횟수, 즉 [[계수 데이터]](Count Data)일 때 적용하는 [[일반화 선형 모델]](Generalized Linear Model, GLM)의 특수한 형태이다. 고전적인 [[선형 회귀]] 모델은 종속 변수가 연속형 변수이며 [[정규 분포]]를 따른다는 가정을 전제로 하지만, 사건의 발생 횟수는 0 이상의 정수값만을 가지며 분포가 오른쪽으로 긴 꼬리를 갖는 비대칭적 형태를 띠는 경우가 많다. 이러한 데이터에 선형 모델을 직접 적용하면 예측값이 음수로 산출되는 논리적 모순이 발생할 수 있으며, 평균이 증가함에 따라 분산도 함께 증가하는 계수 데이터의 특성으로 인해 [[등분산성]] 가정이 위배되는 문제가 발생한다. 포아송 회귀 분석은 이러한 계수 데이터의 통계적 특성을 엄밀하게 반영하기 위해 고안되었다. |
| | |
| | 포아송 회귀 분석의 수리적 기초는 종속 변수 $ Y $가 평균 $ $를 모수로 갖는 [[포아송 분포]](Poisson Distribution)를 따른다는 가정에 있다. 포아송 분포의 확률질량함수는 다음과 같이 정의된다. |
| | |
| | $$ P(Y=y) = \frac{e^{-\lambda} \lambda^y}{y!}, \quad y = 0, 1, 2, \dots $$ |
| | |
| | 여기서 $ $는 해당 단위 구간 내에서 기대되는 사건의 발생 횟수를 의미한다. 일반화 선형 모델의 틀 안에서 포아송 회귀는 [[로그 연결 함수]](Log Link Function)를 사용하여 독립 변수들의 선형 결합과 기대값 $ $ 사이의 관계를 설정한다. 모델의 기본 구조는 다음과 같다. |
| | |
| | $$ \ln(\lambda) = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_k X_k = \mathbf{x}^T \mathbf{\beta} $$ |
| | |
| | 위 식을 $ $에 대해 정리하면 기대값은 독립 변수의 지수 함수 형태로 표현된다. |
| | |
| | $$ \lambda = \exp(\beta_0 + \beta_1 X_1 + \dots + \beta_k X_k) = e^{\mathbf{x}^T \mathbf{\beta}} $$ |
| | |
| | 이러한 지수적 구조는 독립 변수의 값에 관계없이 기대값 $ $가 항상 0보다 큰 양의 값을 유지하도록 보장함으로써, 선형 회귀 모델이 가질 수 있는 수치적 한계를 극복한다. 모델의 파라미터인 [[회귀 계수]] $ $는 일반적으로 [[최대우도법]](Maximum Likelihood Estimation, MLE)을 통해 추정되며, 이는 관측된 데이터가 발생할 확률을 최대화하는 계수 값을 찾는 수치적 최적화 과정을 거친다. |
| | |
| | 포아송 회귀 모델에서 계수의 해석은 선형 회귀와 달리 곱셈적(multiplicative) 성격을 지닌다. 특정 독립 변수 $ X_j $가 1단위 증가할 때, 다른 모든 변수가 일정하다면 사건의 기대 발생 횟수 $ $는 $ e^{_j} $배 변화한다. 이를 [[발생률비]](Incidence Rate Ratio, IRR)라고 하며, 특정 요인이 사건 발생 빈도에 미치는 상대적인 영향력을 파악하는 지표로 활용된다. 또한, 관측 단위마다 노출 시간이나 면적이 서로 다를 경우 이를 보정하기 위해 [[오프셋]](Offset) 변수를 도입한다. 로그 변환된 노출량을 모델의 우변에 계수가 1인 항으로 추가함으로써, 서로 다른 관측 조건하에서도 단위 노출당 발생률을 객관적으로 비교할 수 있게 된다. |
| | |
| | 포아송 회귀 모델을 적용할 때 반드시 검토해야 할 중요한 가정 중 하나는 평균과 분산이 동일하다는 [[등분산성]](Equidispersion) 가정이다. 즉, 포아송 분포의 성질에 따라 $ E(Y) = Var(Y) = $가 성립해야 한다. 그러나 실제 응용 분야에서는 관측된 데이터의 분산이 평균보다 훨씬 크게 나타나는 [[과분산]](Overdispersion) 현상이 빈번하게 관측된다. 만약 과분산이 존재하는 데이터에 표준적인 포아송 회귀를 적용할 경우, 계수의 표준오차가 실제보다 작게 추정되어 [[통계적 유의성]]을 과대평가하는 오류를 범할 수 있다. 이러한 한계를 극복하기 위해 분산 구조를 보다 유연하게 설정한 [[음이항 회귀]](Negative Binomial Regression) 모델이나, 0의 빈도가 이론적 예측보다 과도하게 많은 경우를 처리하기 위한 [[영과잉 모델]](Zero-inflated Model) 등의 확장된 방법론이 사용된다. |
| | |
| | 포아송 회귀 분석은 다양한 실증 연구 분야에서 필수적인 도구로 활용된다. [[역학]](Epidemiology)에서는 특정 기간 내 희귀 질병의 발병 건수를 분석하거나 환경 요인에 따른 사망률 변화를 규명하는 데 사용된다. [[보험계리법]](Actuarial Science)에서는 가입자별 사고 발생 횟수를 예측하여 위험률을 산정하고 적정 보험료를 결정하는 기초 모델로 기능한다. 또한 [[사회과학]] 분야에서는 특정 개인의 범죄 횟수, 특허 출원 수, 혹은 정치적 사건의 발생 빈도와 같은 비연속적 계수 데이터를 분석하여 변수 간의 인과 관계를 정량적으로 설명하는 데 기여하고 있다. |
| |
| ==== 정규화 회귀 방법론 ==== | ==== 정규화 회귀 방법론 ==== |
| |
| 과적합을 방지하고 변수 선택의 효과를 얻기 위해 페널티를 부여하는 회귀 기법을 다룬다. | 전통적인 [[최소제곱법]](Ordinary Least Squares, OLS)은 모델의 [[불편성]](Unbiasedness)을 보장하며 표본 데이터에 대한 오차를 최소화하는 데 탁월한 성능을 보이지만, 독립 변수의 수가 관측치 수에 근접하거나 이를 초과하는 고차원 데이터 환경에서는 심각한 한계에 직면한다. 특히 변수 간 [[다중 공선성]]이 존재할 경우 회귀 계수의 분산이 급격히 증폭되어 모델의 안정성이 저해되며, 이는 훈련 데이터에는 완벽히 부합하나 새로운 데이터에 대한 예측력은 현저히 떨어지는 [[과적합]](Overfitting) 문제로 이어진다. 이러한 한계를 극복하기 위해 제안된 방법론이 [[정규화]](Regularization) 회귀이며, 이는 회귀 계수의 크기에 일정한 제약이나 페널티를 부과하여 모델의 복잡도를 제어하고 [[일반화]](Generalization) 성능을 향상시키는 기법이다. |
| | |
| | 정규화 회귀의 핵심 원리는 기존의 잔차 제곱합(Residual Sum of Squares, RSS)에 회귀 계수의 크기를 나타내는 함수인 규제항(Penalty term)을 추가하여 이를 최소화하는 것이다. 이를 통해 모델은 데이터에 대한 적합도와 모델의 단순성 사이에서 적절한 균형을 모색하게 된다. 이러한 접근 방식은 통계학적 관점에서 약간의 [[편향]](Bias)을 감수하는 대신 [[분산]](Variance)을 대폭 감소시켜 전체적인 [[평균 제곱 오차]](Mean Squared Error, MSE)를 낮추는 [[편향-분산 트레이드오프]] 전략에 기반한다. |
| | |
| | [[릿지 회귀]](Ridge Regression)는 규제항으로 회귀 계수의 제곱합을 사용하는 [[L2 정규화]](L2 Regularization) 방식을 채택한다. 릿지 회귀의 비용 함수는 다음과 같이 정의된다. |
| | |
| | $$ J(\beta) = \sum_{i=1}^{n} (y_i - \beta_0 - \sum_{j=1}^{p} \beta_j x_{ij})^2 + \lambda \sum_{j=1}^{p} \beta_j^2 $$ |
| | |
| | 여기서 $ $는 정규화의 강도를 조절하는 [[하이퍼파라미터]](Hyperparameter)이다. $ $가 0에 가까워질수록 모델은 일반적인 최소제곱법과 동일해지며, $ $가 커질수록 회귀 계수의 크기는 0에 수렴하게 된다. 릿지 회귀는 계수를 완전히 0으로 만들지는 않지만, 모든 변수의 영향력을 균등하게 축소(Shrinkage)함으로써 다중 공선성 문제를 효과적으로 완화한다((Ridge Regression: Biased Estimation for Nonorthogonal Problems, https://doi.org/10.1080/00401706.1970.10488634 |
| | )). |
| | |
| | [[라쏘 회귀]](Lasso Regression)는 회귀 계수의 절대값 합을 규제항으로 사용하는 [[L1 정규화]](L1 Regularization) 기법이다. 라쏘 회귀의 비용 함수는 다음과 같다. |
| | |
| | $$ J(\beta) = \sum_{i=1}^{n} (y_i - \beta_0 - \sum_{j=1}^{p} \beta_j x_{ij})^2 + \lambda \sum_{j=1}^{p} |\beta_j| $$ |
| | |
| | 라쏘 회귀의 결정적인 특징은 $ $가 충분히 클 때 중요도가 낮은 독립 변수의 회귀 계수를 정확히 0으로 수렴시킨다는 점이다. 이는 모델이 유의미한 변수만을 자동으로 선택하는 [[변수 선택]] 기능을 수행하게 함으로써, 모델의 해석력을 높이고 데이터의 [[희소성]](Sparsity)을 반영할 수 있게 한다((Regression Shrinkage and Selection via the Lasso, https://doi.org/10.1111/j.2517-6161.1996.tb02080.x |
| | )). 따라서 라쏘 회귀는 수많은 독립 변수 중 실제 종속 변수에 영향을 미치는 핵심 요인이 소수인 경우에 특히 유용하다. |
| | |
| | 릿지 회귀와 라쏘 회귀의 장점을 결합한 방법론으로는 [[엘라스틱 넷]](Elastic Net)이 있다. 엘라스틱 넷은 L1 규제와 L2 규제를 선형 결합한 형태의 페널티를 사용한다. |
| | |
| | $$ J(\beta) = \text{RSS} + \lambda_1 \sum_{j=1}^{p} |\beta_j| + \lambda_2 \sum_{j=1}^{p} \beta_j^2 $$ |
| | |
| | 엘라스틱 넷은 상관관계가 높은 변수들이 존재할 때 그중 하나만을 선택하고 나머지를 무시하는 라쏘의 단점을 보완하여, 관련 변수들을 그룹 단위로 함께 선택하거나 계수를 축소하는 성질을 갖는다((Regularization and variable selection via the elastic net, https://doi.org/10.1111/j.1467-9868.2005.00503.x |
| | )). 이는 변수 간의 복잡한 의존 구조를 가진 실제 데이터 분석에서 보다 안정적인 결과를 제공한다. |
| | |
| | 이러한 정규화 기법들을 실무에 적용할 때 가장 중요한 과정은 적절한 $ $ 값을 결정하는 것이다. 이를 위해 일반적으로 데이터를 훈련 세트와 검증 세트로 분할하여 최적의 성능을 내는 파라미터를 찾는 [[교차 검증]] 기법이 활용된다. 정규화 회귀 방법론은 현대 [[기계 학습]](Machine Learning)과 데이터 과학 분야에서 고차원 데이터를 다루는 표준적인 도구로 자리 잡았으며, 통계적 추론의 안정성과 예측의 정확성을 동시에 확보하는 데 기여하고 있다. |
| |
| ===== 응용 분야 및 실무적 활용 ===== | ===== 응용 분야 및 실무적 활용 ===== |
| ==== 경제학 및 경영학에서의 활용 ==== | ==== 경제학 및 경영학에서의 활용 ==== |
| |
| 수요 예측, 자산 가격 결정 모델, 마케팅 효과 분석 등에서의 회귀 분석 역할을 기술한다. | 경제학적 관점에서 [[회귀 분석]]은 이론적으로 도출된 경제 모델을 현실의 데이터를 통해 검증하고 변수 간의 정량적 관계를 규명하는 [[계량경제학]](Econometrics)의 핵심 도구로 기능한다. 경제학자들은 [[수요 함수]]나 [[공급 함수]]를 추정할 때 종속 변수를 상품의 수량으로 설정하고, 독립 변수로 가격, 소득, 대체재의 가격 등을 포함하여 각 요인이 시장에 미치는 영향력을 분석한다. 이때 산출되는 [[회귀 계수]]는 경제학적 의미의 [[탄력성]](Elasticity)을 나타내며, 이는 정책 입안자가 조세 정책이나 보조금의 효과를 예측하거나 기업이 가격 전략을 수립하는 데 결정적인 근거를 제공한다. 또한 [[거시경제학]] 분야에서는 [[소비 함수]]나 [[투자 함수]]의 모수 추정을 통해 국가 전체의 소득 수준 변화가 총수요에 미치는 파급 효과를 분석하는 데 활용된다. |
| | |
| | 재무학 및 금융 공학 분야에서 회귀 분석은 자산의 가치를 평가하고 위험을 관리하는 데 필수적인 역할을 수행한다. 대표적인 사례인 [[자산 가격 결정 모형]](Capital Asset Pricing Model, CAPM)은 특정 개별 자산의 기대 수익률과 시장 전체의 수익률 사이의 선형 관계를 회귀식으로 표현한다. 해당 모델의 기본 구조는 다음과 같다. |
| | |
| | $$ E(R_i) - R_f = \beta_i [E(R_m) - R_f] $$ |
| | |
| | 위 식에서 $ _i $는 해당 자산의 수익률이 시장 변동에 얼마나 민감하게 반응하는지를 나타내는 회귀 계수로, 이를 [[체계적 위험]]이라 정의한다. 투자자들은 회귀 분석을 통해 도출된 베타 값을 바탕으로 자산의 적정 수익률을 산출하며, 이는 [[포트폴리오 이론]]의 실무적 적용으로 이어진다. 더 나아가 [[파마-프렌치 3요인 모형]](Fama-French Three-Factor Model)과 같은 다요인 회귀 모델은 기업 규모나 장부가치 대 시장가치 비율 등 추가적인 독립 변수를 도입함으로써 자산 수익률의 변동성을 보다 정밀하게 설명하고자 한다. |
| | |
| | 경영학의 실무 영역에서는 데이터에 기반한 의사결정을 지원하기 위해 회귀 분석이 광범위하게 사용된다. 마케팅 분야의 마케팅 믹스 모델링(Marketing Mix Modeling, MMM)은 광고비, 판촉 활동, 유통 채널의 수 등 다양한 마케팅 자원 투입이 매출액에 미치는 기여도를 정량화한다. 이를 통해 경영자는 한정된 마케팅 예산을 가장 효율적인 채널에 배분하는 최적화 전략을 수립할 수 있다. 또한 기업의 운영 관리 측면에서는 과거의 판매 데이터를 기반으로 한 [[수요 예측]](Demand Forecasting)에 회귀 분석이 활용된다. 특히 시간의 흐름에 따른 추세와 계절적 변동을 독립 변수로 포함하는 [[시계열 회귀 분석]]은 생산 계획 수립과 재고 비용 최소화를 위한 과학적 관리 기법의 근간이 된다. |
| | |
| | 인적 자원 관리 및 조직 행동론에서도 회귀 분석의 유용성은 높다. 직원의 직무 만족도, 조직 몰입도, 교육 훈련의 참여 여부가 업무 성과나 이직률에 미치는 영향을 분석함으로써 조직 운영의 효율성을 제고할 수 있다. 이처럼 회귀 분석은 경제적 현상의 인과 관계를 밝히는 학술적 도구일 뿐만 아니라, 경영 현장의 복잡한 변수들 사이에서 유의미한 패턴을 추출하여 미래의 불확실성을 통제 가능한 수치로 전환하는 실천적 방법론으로서의 위상을 지닌다. 이러한 분석 과정에서 발생할 수 있는 [[다중 공선성]]이나 [[자기 상관]] 등의 통계적 오류를 적절히 제어하는 것은 경제 및 경영 데이터의 신뢰성을 확보하기 위한 필수적인 절차로 취급된다. |
| |
| ==== 자연과학 및 사회과학 연구 ==== | ==== 자연과학 및 사회과학 연구 ==== |
| |
| 실험 데이터 분석, 인과 관계 추론, 정책 효과 평가 등에 사용되는 회귀 분석의 사례를 제시한다. | [[자연과학]](Natural Sciences)과 [[사회과학]](Social Sciences) 연구에서 [[회귀 분석]](Regression Analysis)은 관측된 현상의 배후에 존재하는 규칙성을 규명하고, 변수 간의 [[인과 관계]](Causality)를 정량화하는 핵심적인 도구로 기능한다. 자연과학 분야에서 이 방법론은 주로 엄격하게 통제된 [[실험]](Experiment)을 통해 얻은 데이터로부터 물리적 법칙이나 생물학적 기제를 확인하는 데 사용된다. 예를 들어, [[물리학]]에서 특정 입자의 가속도와 힘의 관계를 측정하거나 [[화학]] 반응에서 농도에 따른 반응 속도의 변화를 분석할 때, 연구자는 최소제곱법을 활용하여 이론적 모델의 파라미터를 추정한다. 이때 회귀 분석은 측정 과정에서 발생하는 불가피한 [[오차]](Error)를 통계적으로 처리하여, 법칙의 타당성을 검증하고 물리 상수의 최적값을 도출하는 역할을 수행한다. |
| | |
| | 반면 사회과학 연구에서는 자연과학과 달리 변수를 완벽하게 통제하는 것이 불가능한 경우가 많으므로, [[관찰 데이터]](Observational Data)를 바탕으로 인과 관계를 추론하는 데 회귀 분석의 초점이 맞춰진다. 사회과학자들은 관심 있는 [[독립 변수]] 외에도 결과에 영향을 미칠 수 있는 수많은 외생적 요인들을 [[통제 변수]](Control Variables)로 모델에 포함함으로써, 특정 요인의 순수한 효과를 분리해내고자 한다. 예를 들어, [[교육]] 수준이 [[임금]]에 미치는 영향을 분석할 때, 개인의 지적 능력이나 부모의 사회경제적 배경 등을 통제 변수로 삽입한 다중 회귀 모델을 구축하여 교육의 경제적 수익률을 추정한다. 이러한 분석 과정에서 발생할 수 있는 [[내생성]](Endogeneity) 문제는 [[도구 변수]](Instrumental Variables) 기법이나 [[고정 효과 모델]](Fixed Effects Model)과 같은 고도화된 회귀 방법론을 통해 보완된다. |
| | |
| | 현대 사회과학과 공공 정책 분야에서는 정책이나 프로그램의 효과를 엄밀하게 평가하기 위해 [[준실험 설계]](Quasi-experimental Design)에 기반한 회귀 분석이 널리 활용된다. [[정책 평가]](Policy Evaluation)의 핵심은 정책이 시행되지 않았을 경우의 가상적 상황인 [[반사실]](Counterfactual)을 적절히 설정하는 데 있다. 이를 위해 연구자들은 [[이중차분법]](Difference-in-Differences, DID)이나 [[회귀 불연속 설계]](Regression Discontinuity Design, RDD)를 사용한다. 이중차분법은 정책 수혜 집단과 비수혜 집단의 시간적 변화 추이를 비교하며, 회귀 불연속 설계는 정책 수혜 여부가 결정되는 특정 임곗값(threshold) 근처에서의 불연속적인 변화를 회귀식으로 포착하여 인과적 효과를 식별한다. |
| | |
| | 정책 효과를 추정하는 기본적인 회귀 모델의 형태는 다음과 같이 표현될 수 있다. 여기서 $ Y_i $는 성과 지표, $ D_i $는 처치(Treatment) 여부를 나타내는 이분 변수, $ X_i $는 통제 변수 벡터를 의미한다. |
| | |
| | $$ Y_i = \alpha + \tau D_i + \beta X_i + \epsilon_i $$ |
| | |
| | 이 식에서 계수 $ $는 다른 조건이 동일할 때 정책이 성과에 미치는 평균적인 효과를 나타낸다. 이러한 방법론적 정교함 덕분에 회귀 분석은 단순한 상관관계의 기술을 넘어, 정부 정책의 실효성을 검증하고 데이터에 기반한 의사결정을 내리는 데 필수적인 학술적 토대를 제공하고 있다((Alberto Abadie and Matias D. Cattaneo, “Econometric Methods for Program Evaluation”, https://economics.mit.edu/sites/default/files/publications/ARE-typo-Fig4-corrected.pdf |
| | )). 특히 [[조슈아 앵그리스트]](Joshua Angrist)와 [[구이도 임벤스]](Guido Imbens) 등의 연구는 이러한 회귀 기반 인과 추론 기법이 현대 경제학 및 사회과학의 패러다임을 어떻게 변화시켰는지를 잘 보여준다. |
| |