문서의 이전 판입니다!
통계학(Statistics)의 핵심적 방법론 중 하나인 회귀 분석(Regression Analysis)은 특정 변수가 다른 변수들에 의해 어떻게 설명되거나 예측되는지를 파악하기 위해 변수 간의 함수적 관계를 수학적 모형으로 구축하는 통계적 절차이다. 이 분석의 일차적인 목적은 관측된 데이터를 바탕으로 변수 사이의 관계를 정량화하고, 이를 통해 미지의 값을 추정하거나 현상을 설명하는 데 있다. 현대 사회과학과 자연과학 전반에서 인과 관계의 추론이나 데이터의 패턴 인식 등을 위해 광범위하게 활용되는 도구이다.
회귀 분석의 구조를 이해하기 위해서는 우선 변수의 성격에 따른 분류가 선행되어야 한다. 분석의 대상이 되는 변수는 크게 독립 변수(independent variable)와 종속 변수(dependent variable)로 구분된다. 독립 변수는 다른 변수에 영향을 주는 변수로, 연구자가 통제하거나 관찰하는 원인에 해당한다. 이를 설명 변수(explanatory variable) 또는 예측 변수(predictor variable)라고도 부른다. 반면 종속 변수는 독립 변수의 변화에 따라 그 값이 결정되는 결과 변수로, 반응 변수(response variable)라고 칭해지기도 한다. 회귀 분석은 이러한 변수들 사이의 관계를 다음과 같은 일반적인 수식으로 표현한다.
$$ Y = f(X_1, X_2, \dots, X_p) + \epsilon $$
위 식에서 $ Y $는 종속 변수를, $ X_i $는 독립 변수들을 의미하며, $ f $는 독립 변수들과 종속 변수 사이의 체계적인 관계를 나타내는 함수이다. 이때 현실의 데이터는 함수 $ f $에 의해 완전히 설명되지 않는 무작위적 변동을 포함하게 되는데, 이를 오차항(error term)인 $ $으로 표기한다. 오차항은 모델에 포함되지 않은 수많은 미세한 요인이나 측정상의 한계 등으로 발생하는 불확실성을 수용하는 역할을 한다.
회귀 분석의 원리는 데이터 내에 존재하는 변동성(variability)을 ’설명 가능한 부분’과 ’설명 불가능한 부분’으로 분리하는 것에 있다. 관측된 종속 변수의 전체 변동 중에서 독립 변수와의 관계를 통해 설명되는 비중이 높을수록 해당 회귀 모형의 설명력은 강화된다. 이러한 관계를 규명하기 위해 회귀 분석은 최소제곱법(Ordinary Least Squares, OLS)과 같은 수학적 최적화 기법을 사용하여, 실제 관측값과 모형에 의한 예측값 사이의 차이인 잔차(residual)의 제곱합을 최소화하는 회귀 계수(regression coefficient)를 추정한다.
변수 간의 관계를 파악하는 방식에 따라 회귀 분석은 다양한 형태로 확장된다. 단일한 독립 변수와 종속 변수 사이의 선형적 관계를 다루는 단순 선형 회귀(Simple Linear Regression)에서부터, 여러 독립 변수의 복합적인 영향을 분석하는 다중 선형 회귀(Multiple Linear Regression), 그리고 직선이 아닌 곡선의 형태로 관계를 모형화하는 비선형 회귀(Nonlinear Regression) 등이 존재한다. 분석가는 데이터의 특성과 연구 목적에 부합하는 적절한 함수 형태를 선택함으로써, 복잡한 현실 세계의 데이터를 추상화된 수리 모형으로 변환한다.
결론적으로 회귀 분석은 단순히 수치적 예측을 수행하는 도구를 넘어, 변수 간의 상관관계(correlation)를 구조화하고 특정 요인의 영향력을 검증하는 가설 검정(hypothesis testing)의 틀을 제공한다. 이는 현상의 배후에 있는 법칙을 이해하고, 주어진 조건의 변화가 결과에 미치는 파급 효과를 정밀하게 분석할 수 있게 함으로써 과학적 의사결정의 토대가 된다. 1)
회귀 분석(Regression Analysis)은 하나 이상의 독립 변수(Independent Variable)와 종속 변수(Dependent Variable) 간의 관계를 수학적 모형으로 구축하여 변수 간의 상관관계를 계량적으로 분석하는 통계적 방법론이다. 이는 단순히 두 변수가 함께 변화하는 정도를 측정하는 상관 분석을 넘어, 특정 변수의 변화가 다른 변수의 변화에 어떠한 영향을 미치는지를 함수식의 형태로 규명한다는 점에서 차별화된다. 회귀 분석의 핵심은 관측된 데이터를 가장 잘 설명할 수 있는 최적의 함수를 찾아내어, 변수 간의 구조적 관계를 설명하거나 미래의 값을 예측하는 데 있다.
이 분석 체계에서 영향을 주는 변수는 설명 변수(Explanatory Variable)라고도 불리며, 영향을 받는 변수는 반응 변수(Response Variable)로 정의된다. 회귀 분석은 이들 변수 사이의 관계를 다음과 같은 일반적인 수학적 모형으로 정형화한다.
$$ Y = f(X_1, X_2, \dots, X_k; \beta) + \epsilon $$
위 식에서 $ Y $는 종속 변수를, $ X_1, X_2, , X_k $는 독립 변수를 의미하며, $ $는 모델의 특성을 결정하는 회귀 계수(Regression Coefficient)이다. 여기서 $ f $는 변수 간의 관계를 나타내는 함수적 형태를 의미하며, 만약 이 함수가 선형 결합의 구조를 가진다면 이를 선형 회귀라 칭한다. 마지막 항인 $ $은 오차항(Error Term)으로, 모형이 실제 데이터를 완벽하게 설명하지 못함에 따라 발생하는 무작위적 변동성을 의미한다. 통계학적 관점에서 회귀 분석은 이 오차항의 분산을 최소화하거나 특정 확률 분포 가정을 충족하는 최적의 회귀 계수 $ $를 추정하는 과정이라 할 수 있다.
회귀 분석이 제공하는 결과물은 변수 간의 인과 관계를 직접적으로 증명하기보다는, 설정된 가설적 모형이 데이터와 얼마나 부합하는지를 통계적으로 검정하는 역할을 수행한다. 독립 변수의 수치가 한 단위 변화할 때 종속 변수가 평균적으로 얼마나 변화하는지를 나타내는 회귀 계수의 크기와 부호는 현상을 해석하는 중요한 지표가 된다. 또한, 구축된 모형의 결정 계수(Coefficient of Determination)를 통해 해당 모델이 전체 데이터의 변동성을 얼마나 효과적으로 설명하고 있는지 파악할 수 있다.
이러한 회귀 분석의 개념은 현대 학문 체계 전반에서 데이터 기반 의사결정의 기초가 된다. 경제학에서는 가계 소득이 소비 지출에 미치는 영향을 분석하여 정책을 수립하는 데 활용되며, 자연과학이나 공학 분야에서는 실험 조건에 따른 결과값의 변화를 정밀하게 예측하는 도구로 사용된다. 최근에는 기계 학습의 영역에서도 수치형 데이터를 예측하는 지도 학습의 핵심 알고리즘으로 다루어지며 그 중요성이 더욱 증대되고 있다. 결국 회귀 분석은 복잡한 현실 세계의 변수 간 상호작용을 단순화된 수학적 언어로 번역함으로써, 현상의 기저에 흐르는 법칙성을 발견하고 이를 실무에 적용하게 하는 필수적인 분석 도구이다.
회귀 분석을 수행하기 위해서는 분석의 대상이 되는 변수를 그 역할과 성격에 따라 명확히 규정해야 한다. 가장 기본적인 분류는 독립 변수(independent variable)와 종속 변수(dependent variable)의 구별이다. 독립 변수는 다른 변수에 영향을 주는 변수로, 연구자가 통제하거나 관측하는 원인적 요소를 의미한다. 반면 종속 변수는 독립 변수의 변화에 따라 그 값이 결정되는 결과적 요소를 나타낸다. 통계학적 맥락에서는 엄밀한 인과 관계를 확정하기 어려운 경우를 고려하여 독립 변수를 설명 변수(explanatory variable) 또는 예측 변수(predictor variable)로, 종속 변수를 반응 변수(
회귀 분석의 학술적 기원은 19세기 초 천문학과 측지학 분야에서 관측 데이터의 오차를 최소화하려는 수치적 시도에서 비롯되었다. 당시 학자들은 행성의 궤도나 지구의 형상을 결정하기 위해 동일한 대상에 대한 다수의 관측값을 결합하는 방법론을 모색하였다. 이러한 배경에서 아드리앵마리 르장드르(Adrien-Marie Legendre)는 1805년 최소제곱법(Method of Least Squares)을 처음으로 공식 발표하였다. 그는 잔차(Residual)의 제곱합을 최소화함으로써 가장 적합한 추정치를 얻는 수치적 최적화 기법을 제시하였다. 이와 거의 동시에 칼 프리드리히 가우스(Carl Friedrich Gauss)는 1809년 자신의 저서에서 최소제곱법이 오차의 정규 분포(Normal distribution) 가정하에서 최대 우도 추정법(Maximum Likelihood Estimation)과 일치함을 증명하며 이론적 정당성을 부여하였다. 가우스는 자신이 1795년부터 이 방법을 사용해왔다고 주장하며 우선권 논쟁이 발생하기도 하였으나, 결과적으로 두 학자의 기여는 현대 회귀 분석의 수치적 기초를 확립하는 데 결정적인 역할을 하였다.
최소제곱법의 목적 함수는 일반적으로 다음과 같이 정의된다. 독립 변수 $ x_i $와 종속 변수 $ y_i $의 관계를 $ y_i = _0 + _1 x_i + _i $라고 할 때, 오차항 $ _i $의 제곱합을 최소화하는 계수 $ $를 찾는 것이 핵심이다. $$ S = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 = \sum_{i=1}^{n} (y_i - (\beta_0 + \beta_1 x_i))^2 $$ 위 식에서 $ S $를 최소화하는 해를 구함으로써 관측 데이터를 가장 잘 설명하는 회귀 직선을 도출할 수 있다.
’회귀(Regression)’라는 용어가 통계학의 고유한 방법론적 명칭으로 자리 잡은 것은 19세기 후반 영국의 유전학자 프랜시스 골턴(Francis Galton)의 연구를 통해서이다. 골턴은 1886년 발표한 논문에서 부모의 키와 자녀의 키 사이의 관계를 분석하던 중, 부모의 키가 극단적으로 크거나 작더라도 자녀의 키는 전체 인구의 평균치로 돌아가려는 경향이 있음을 발견하였다2). 그는 이를 평균으로의 회귀(Regression toward the mean)라고 명명하였다. 비록 골턴의 초기 연구는 생물학적 현상을 설명하는 데 집중되어 있었으나, 이후 칼 피어슨(Karl Pearson)과 조지 우드니 율(George Udny Yule) 등에 의해 이러한 관계성이 수학적으로 일반화되면서 상관관계(Correlation)와 구별되는 독립적인 분석 도구로 발전하였다. 특히 율은 회귀 분석을 경제학 및 사회과학의 시계열 데이터 분석에 적용함으로써 응용 범위를 크게 넓혔다.
20세기에 들어서며 회귀 분석은 로널드 피셔(Ronald Fisher)에 의해 현대적 추론 통계학(Inferential statistics)의 체계 안으로 편입되었다. 피셔는 분산 분석(Analysis of Variance, ANOVA)의 개념을 도입하고, 회귀 계수의 통계적 유의성을 검정할 수 있는 F-검정(F-test)과 t-검정(t-test)의 기틀을 마련하였다. 또한 가우스-마르코프 정리(Gauss-Markov theorem)의 정립은 최소제곱 추정량이 일정한 조건 하에서 최선 선형 불편 추정량(Best Linear Unbiased Estimator, BLUE)이 됨을 입증하여 모델의 신뢰성을 학술적으로 뒷받침하였다. 이후 1970년대 넬더(John Nelder)와 웨더번(Robert Wedderburn)이 제안한 일반화 선형 모델(Generalized Linear Model, GLM)은 종속 변수가 정규 분포를 따르지 않는 경우까지 분석 범위를 확장하며 현대 통계학의 중추적인 역할을 수행하게 되었다.
통계학에서 회귀(Regression)라는 용어는 19세기 영국의 다학제적 연구자 프랜시스 골턴(Francis Galton)이 수행한 유전학 연구에서 처음으로 등장하였다. 골턴은 부모의 신체적 특성이 자손에게 전달되는 원리를 정량적으로 규명하고자 하였으며, 특히 인간의 신장(Height) 유전 데이터에 주목하였다. 그는 1886년 발표한 논문인 「유전적 신장에서의 평범함으로의 회귀(Regression towards mediocrity in hereditary stature)」를 통해 특정 형질이 세대를 거듭하며 인구 전체의 평균적인 수준으로 돌아가려는 경향이 있음을 통계적으로 증명하였다3).
골턴은 수많은 가족의 데이터를 수집하여 부모의 평균 키와 성인이 된 자녀의 키 사이의 관계를 분석하였다. 그 결과, 키가 매우 큰 부모에게서 태어난 자녀는 부모보다는 작고 인구 전체의 평균보다는 큰 경향을 보였으며, 반대로 키가 매우 작은 부모의 자녀는 부모보다는 크고 평균보다는 작은 경향을 나타냈다. 골턴은 이러한 현상을 ’평균으로의 회귀(Regression toward the mean)’라고 정의하였다. 이는 생물학적 형질이 세대를 거치면서 극단적인 방향으로 계속해서 나아가지 않고, 종(Species)의 중심적인 특성으로 수렴함으로써 집단의 안정성을 유지하려는 일종의 통계적 제동 장치와 같은 역할을 함을 의미한다.
이러한 현상을 수학적으로 기술하는 과정에서 골턴은 두 변수 간의 관계를 나타내는 직선의 기울기가 1보다 작다는 사실을 발견하였다. 만약 자녀의 키가 부모의 키를 완벽하게 물려받는다면 기울기는 1이 되어야 하지만, 실제 데이터에서는 부모의 키가 평균에서 벗어난 정도보다 자녀의 키가 평균에서 벗어난 정도가 더 작게 나타났다. 골턴은 이를 상관 계수(Correlation coefficient)의 전신이 되는 개념으로 설명하였으며, 이때 사용된 산점도상의 최적합 직선을 회귀선(Regression line)이라 부르기 시작하였다.
이후 칼 피어슨(Karl Pearson)과 조지 우드니 율(George Udny Yule) 등은 골턴의 생물학적 발견을 보다 일반적인 통계 이론으로 확장하였다4). 그들은 회귀의 개념을 단순히 유전적 수렴 현상에 국한하지 않고, 하나의 변수가 다른 변수에 의존하여 변화하는 함수적 관계를 추정하는 보편적인 방법론으로 정립하였다. 이 과정에서 본래 ’평균으로 되돌아간다’는 생물학적 의미를 지녔던 회귀라는 단어는, 과거의 데이터를 바탕으로 독립 변수(Independent variable)와 종속 변수(Dependent variable) 사이의 관계식을 도출하여 미래의 값을 예측하는 통계적 기법 전체를 지칭하는 고유 명사로 안착하게 되었다.
현대적 관점에서 회귀 분석은 골턴이 관찰했던 평균으로의 수렴 현상만을 다루지는 않는다. 그러나 변수 간의 관계를 선형적으로 모델링하고 오차를 최소화하는 최소제곱법(Least squares method)의 원리는 골턴이 구축한 통계적 사고의 틀에 기반하고 있다. 따라서 회귀라는 명칭은 통계학의 역사적 기원을 상징하는 동시에, 데이터의 변동성 속에서 변수 간의 질서 있는 관계를 찾아내려는 학문적 노력을 함축하고 있다.
르장드르와 가우스에 의해 정립된 최소제곱법이 회귀 분석의 수치적 기초가 된 과정을 설명한다.
선형 회귀(Linear Regression) 모델은 하나 이상의 독립 변수(Independent Variable)와 종속 변수(Dependent Variable) 사이의 선형적 상관관계를 수치적으로 규명하는 통계적 모형이다. 이 모델의 기본 가정은 종속 변수 $ Y $가 독립 변수들의 선형 결합과 확률적 오차항(Error Term)의 합으로 표현될 수 있다는 점이다. 이론적 전개에서 가장 기초가 되는 단순 선형 회귀 모델은 하나의 독립 변수만을 포함하며, 다중 선형 회귀 모델은 이를 $ k $개의 독립 변수로 확장한 형태를 띤다. 선형 회귀 모델의 수학적 구조는 다음과 같이 정의된다.
$$ Y_i = \beta_0 + \beta_1 X_{i1} + \beta_2 X_{i2} + \dots + \beta_k X_{ik} + \epsilon_i \quad (i = 1, \dots, n) $$
위 식에서 $ Y_i $는 $ i $번째 관측치의 종속 변수 값이며, $ X_{ij} $는 $ i $번째 관측치의 $ j $번째 독립 변수 값을 나타낸다. $ _j $는 모델이 추정하고자 하는 미지의 모수(Parameter)로서, 독립 변수 $ X_j $가 한 단위 변화할 때 종속 변수 $ Y $에 미치는 영향력을 의미한다. $ _i $는 모델이 설명하지 못하는 무작위 오차를 나타낸다.
대규모 데이터를 다루는 현대 통계학에서는 행렬 대수학(Matrix Algebra)을 이용하여 모델을 간결하게 표현한다. $ n $개의 관측치와 $ p $개의 모수(상수항 포함 $ p = k+1 $)에 대하여, 모델은 다음과 같은 행렬식으로 기술된다.
$$ \mathbf{Y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\epsilon} $$
여기서 $ $는 $ n $ 종속 변수 벡터, $ $는 $ n p $ 크기의 설계 행렬(Design Matrix), $ $는 $ p $ 회귀 계수 벡터, 그리고 $ $은 $ n $ 오차항 벡터이다. 설계 행렬의 첫 번째 열은 통상적으로 상수항을 반영하기 위해 모든 원소가 1로 채워진다.
선형 회귀 모델의 이론적 핵심은 관측된 표본 데이터를 바탕으로 최적의 회귀 계수 $ $를 추정하는 방법론에 있다. 가장 보편적으로 사용되는 기법은 최소제곱법(Ordinary Least Squares, OLS)이다. 최소제곱법은 실제 관측값과 모델에 의한 예측값의 차이인 잔차(Residual)의 제곱합을 최소화하는 계수를 찾는 원리이다. 잔차 제곱합(Residual Sum of Squares, RSS) 함수 $ S() $는 다음과 같이 정의된다.
$$ S(\boldsymbol{\beta}) = \sum_{i=1}^{n} (Y_i - \mathbf{x}_i^T \boldsymbol{\beta})^2 = (\mathbf{Y} - \mathbf{X}\boldsymbol{\beta})^T (\mathbf{Y} - \mathbf{X}\boldsymbol{\beta}) $$
함수 $ S() $를 $ $에 대해 미분하여 0이 되는 지점을 찾으면, 다음과 같은 정규 방정식(Normal Equations)을 얻게 된다.
$$ \mathbf{X}^T \mathbf{X} \hat{\boldsymbol{\beta}} = \mathbf{X}^T \mathbf{Y} $$
만약 $ ^T $ 행렬의 역행렬이 존재한다면, 즉 독립 변수들 사이에 완전한 선형 관계가 없는 풀 랭크(Full Rank) 상태라면, 최소제곱 추정량은 다음과 같은 유일한 해를 갖는다.
$$ \hat{\boldsymbol{\beta}} = (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \mathbf{Y} $$
이렇게 도출된 최소제곱 추정량은 몇 가지 통계적 성질을 보유한다. 오차항의 기댓값이 0이라는 가정하에, $ $는 모수 $ $의 불편 추정량(Unbiased Estimator)이 된다. 즉, 반복적인 표본 추출을 통해 얻은 추정치들의 평균은 실제 모수값과 일치한다. 또한, 오차항들이 서로 독립이고 동일한 분산 $ ^2 $을 갖는다는 조건 하에서 추정량의 분산(Variance)-공분산(Covariance) 행렬은 $ ^2 (^T )^{-1} $로 계산된다.
선형 회귀 모델의 이론적 우수성은 가우스-마르코프 정리(Gauss-Markov Theorem)에 의해 뒷받침된다. 이 정리에 따르면, 모델의 기본 가정이 충족될 때 최소제곱 추정량은 모든 선형 불편 추정량 중에서 가장 작은 분산을 가지는 최선 선형 불편 추정량(Best Linear Unbiased Estimator, BLUE)이다. 이는 최소제곱법이 통계적으로 가장 효율적인 추정 방식임을 수학적으로 증명하는 근거가 된다5).
단순 선형 회귀 분석(Simple Linear Regression Analysis)은 하나의 독립 변수(independent variable)와 하나의 종속 변수(dependent variable) 사이의 관계를 직선의 형태로 모형화하는 통계적 기법이다. 이 분석의 핵심 목적은 독립 변수의 변화에 따른 종속 변수의 변화 양상을 파악하고, 이를 통해 주어진 독립 변수 값에 대한 종속 변수의 값을 예측하는 데 있다. 모집단에서의 단순 선형 회귀 모델은 다음과 같은 수학적 구조를 갖는다.
$ Y = _0 + _1 X + $
위 식에서 $ Y $는 종속 변수, $ X $는 독립 변수를 나타내며, $ _0 $는 $ X $가 0일 때의 $ Y $의 기댓값인 절편(intercept)을 의미한다. $ _1 $은 독립 변수가 한 단위 변화할 때 종속 변수가 변화하는 정도를 나타내는 기울기(slope)로, 이를 회귀 계수(regression coefficient)라 한다. 마지막으로 $ $은 모델이 설명하지 못하는 무작위적인 변동을 의미하는 오차항(error term)이다. 오차항은 평균이 0이고 분산이 일정한 정규 분포를 따른다는 가정을 전제로 한다.
실제 연구에서는 모집단의 모든 데이터를 전수 조사할 수 없으므로, 표본 데이터를 사용하여 미지의 모수(parameter)인 $ _0 $와 $ _1 $을 추정한다. 이를 통해 도출된 식을 표본 회귀식이라 하며, 다음과 같이 표기한다.
$ _i = _0 + _1 x_i $
여기서 $ _i $는 추정된 예측값이며, 실제 관측값 $ y_i $와 예측값 사이의 차이를 잔차(residual)라고 정의한다. 회귀 분석에서 가장 널리 사용되는 추정 방법은 최소제곱법(Ordinary Least Squares, OLS)이다. 최소제곱법은 잔차의 제곱합을 최소화하는 계수를 찾는 원리이다. 잔차 제곱합(Residual Sum of Squares, RSS)을 $ S $라고 할 때, 이는 다음과 같이 정의된다.
$$ S(\hat{\beta}_0, \hat{\beta}_1) = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 = \sum_{i=1}^{n} (y_i - \hat{\beta}_0 - \hat{\beta}_1 x_i)^2 $$
최적의 회귀 계수를 구하기 위해 $ S $를 각각 $ _0 $와 $ _1 $에 대해 편미분하여 그 값이 0이 되는 정규 방정식(Normal Equations)을 도출한다. 먼저 절편에 대해 미분하면 다음과 같은 관계를 얻는다.
$$ \frac{\partial S}{\partial \hat{\beta}_0} = -2 \sum_{i=1}^{n} (y_i - \hat{\beta}_0 - \hat{\beta}_1 x_i) = 0 $$
이 식을 정리하면 추정된 회귀 직선은 항상 독립 변수와 종속 변수의 표본 평균점인 $ ({x}, {y}) $를 통과한다는 성질을 도출할 수 있다. 이어 기울기에 대해 미분하여 정리하면 최종적으로 다음과 같은 회귀 계수 추정량을 얻는다.
$$ \hat{\beta}_1 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^{n} (x_i - \bar{x})^2} = \frac{Cov(X, Y)}{Var(X)} $$
$$ \hat{\beta}_0 = \bar{y} - \hat{\beta}_1 \bar{x} $$
여기서 $ Cov(X, Y) $는 두 변수 사이의 공분산이며, $ Var(X) $는 독립 변수의 분산이다. 즉, 기울기 추정량은 독립 변수의 변동성 대비 두 변수가 함께 변하는 정도의 비율로 결정된다. 이렇게 도출된 회귀 직선은 관측된 데이터의 분포를 가장 잘 대변하는 최적의 직선이 된다.
단순 선형 회귀 분석을 통해 얻은 결과는 단순히 수치적 예측에 그치지 않고, 두 변수 간의 인과 관계를 추론하는 기초 자료로 활용된다. 추정된 기울기 $ _1 $의 부호와 크기는 독립 변수가 종속 변수에 미치는 영향의 방향과 강도를 나타낸다. 다만, 이러한 회귀 모델이 통계적으로 유의미한지 판단하기 위해서는 가설 검정을 통한 회귀 계수의 유의성 검토와 결정 계수(coefficient of determination)를 이용한 모델의 설명력 평가가 수반되어야 한다.
표본 데이터를 바탕으로 모수를 추정하는 방법과 그 통계적 성질을 논한다.
도출된 회귀식이 실제 데이터를 얼마나 잘 설명하는지 측정하는 지표를 분석한다.
두 개 이상의 독립 변수가 종속 변수에 미치는 영향을 동시에 분석하는 확장된 모델을 다룬다.
다른 변수가 통제된 상태에서 특정 변수가 갖는 고유한 영향력을 해석하는 방법을 다룬다.
독립 변수 간의 강한 상관관계가 분석 결과에 미치는 부정적 영향과 해결책을 제시한다.
선형 회귀 모델(Linear Regression Model)이 통계적으로 유효한 추론을 제공하고, 최소제곱법(Ordinary Least Squares, OLS)을 통해 얻은 추정량이 신뢰할 수 있는 성질을 갖기 위해서는 몇 가지 기본적인 가정이 충족되어야 한다. 이러한 가정들은 주로 오차항의 성질과 관련이 있으며, 가정이 위배될 경우 회귀 계수의 불편성(Unbiasedness)이나 효율성이 상실되어 잘못된 결론에 도달할 위험이 있다. 따라서 모델 구축 후에는 반드시 잔차(Residual)를 이용한 진단 과정을 거쳐 모델의 타당성을 검토해야 한다.
가장 먼저 전제되어야 할 가정은 선형성(Linearity)이다. 이는 종속 변수와 독립 변수 간의 관계가 매개변수에 대하여 선형적인 형태를 취해야 함을 의미한다. 모델이 다음과 같이 정의될 때,
$$$ Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_k X_k + \epsilon $$$
여기서 오차항 $\epsilon$의 기대값은 모든 독립 변수의 값에 대하여 0이어야 한다. 만약 실제 데이터의 구조가 곡선 형태를 띠고 있음에도 선형 모델을 적용한다면, 모델은 체계적인 편향을 갖게 되어 예측력이 저하된다.
둘째는 독립성(Independence)의 가정이다. 이는 임의의 두 오차항 $\epsilon_i$와 $\epsilon_j$ 사이에 상관관계가 존재하지 않아야 함을 의미한다. 특히 시계열 데이터(Time Series Data)나 공간 데이터 분석에서 이 가정이 위배되는 경우가 많은데, 이를 자기 상관(Autocorrelation)이라 한다. 오차항 간에 상관관계가 존재하면 회귀 계수의 표준 오차(Standard Error)가 과소평가되어, 실제로는 유의미하지 않은 변수가 통계적으로 유의미한 것으로 오인될 수 있다.
셋째는 등분산성(Homoscedasticity)이다. 모든 독립 변수의 범위 내에서 오차항의 분산이 일정해야 한다는 가정이다. 즉, $Var(\epsilon_i) = \sigma^2$이 모든 $i$에 대해 성립해야 한다. 만약 독립 변수의 크기에 따라 오차의 변동 폭이 달라지는 이분산성(Heteroscedasticity)이 나타나면, 최소제곱 추정량은 여전히 불편성을 유지하지만 더 이상 최소 분산을 갖는 최선 선형 불편 추정량(Best Linear Unbiased Estimator, BLUE)이 되지 못한다6).
마지막으로 정규성(Normality)의 가정이 있다. 오차항이 평균이 0인 정규 분포를 따른다는 가정은 표본의 크기가 작을 때 특히 중요하다. 이 가정은 회귀 계수에 대한 가설 검정(Hypothesis Testing)이나 신뢰 구간(Confidence Interval) 산출의 근거가 되는 t-분포와 F-분포의 이론적 토대가 된다. 대표본의 경우 중심한계정리에 의해 정규성 가정이 다소 완화될 수 있으나, 소표본 분석에서는 정규성 위배가 검정의 신뢰도를 크게 떨어뜨린다.
모델의 가정이 적절히 지켜졌는지 확인하는 가장 보편적인 방법은 잔차 분석(Residual Analysis)이다. 모델 적합 후 계산된 잔차를 시각화하여 특정 패턴이 나타나는지 조사한다. 독립 변수나 예측값에 대한 잔차의 산점도에서 잔차가 무작위적으로 분포하지 않고 깔때기 모양이나 곡선 패턴을 보인다면, 이는 등분산성이나 선형성 가정이 위배되었음을 시사한다7). 또한 Q-Q 플롯(Quantile-Quantile Plot)을 통해 잔차가 직선상에 놓이는지를 확인하여 정규성을 진단할 수 있다. 통계적 검정 방법으로는 독립성 검정을 위한 더빈-왓슨 검정(Durbin-Watson test), 정규성 검정을 위한 샤피로-윌크 검정(Shapiro-Wilk test) 등이 활용된다.
최소제곱 추정량이 최선 선형 불편 추정량이 되기 위한 조건들을 체계적으로 정리한다.
모델 적합 후 남은 잔차를 통해 모델의 타당성을 시각적, 통계적으로 검정하는 방법을 다룬다.
변수 간의 선형 관계와 오차항의 독립적 분포 여부를 확인하는 절차를 설명한다.
오차항의 분산이 일정하고 정규 분포를 따르는지 확인하는 기법을 기술한다.
전통적인 최소제곱법(Ordinary Least Squares, OLS)에 기반한 선형 회귀 모델은 모델의 단순성과 해석의 용이성이라는 강력한 장점을 지니지만, 실제 데이터가 가진 복잡한 구조를 모두 수용하기에는 일정한 한계가 존재한다. 특히 독립 변수와 종속 변수 간의 관계가 비선형적이거나, 오차항이 정규 분포를 따르지 않는 경우, 또는 변수의 개수가 관측치에 비해 지나치게 많은 경우에는 통계적 추론의 신뢰성이 저하된다. 이러한 제약을 극복하고 모델의 예측 성능과 일반화 능력을 향상시키기 위해 다양한 확장된 회귀 모델들이 제안되어 왔다.
가장 먼저 고려할 수 있는 확장은 변수 간의 비선형 관계를 모델링하는 것이다. 다항 회귀(Polynomial Regression)는 독립 변수의 고차항을 추가함으로써 곡선 형태의 관계를 파악한다. 이는 수학적으로는 선형 회귀의 틀 안에 있으나, 기하학적으로는 비선형적인 결정 경계를 생성할 수 있게 한다. 보다 유연한 대응을 위해 데이터를 구간별로 나누어 적합시키는 스플라인 회귀(Spline Regression)나 일반화 가법 모델(Generalized Additive Model, GAM) 등이 활용되기도 한다. 이러한 방식은 특정 함수 형태를 사전에 가정하기 어려운 복잡한 데이터 구조를 학습하는 데 유리하다.
종속 변수의 분포가 정규성을 벗어날 때는 일반화 선형 모델(Generalized Linear Model, GLM)이 핵심적인 역할을 수행한다. 존 넬더(John Nelder)와 로버트 웨더번(Robert Wedderburn)에 의해 체계화된 이 모델은 종속 변수의 기댓값과 선형 예측자 사이를 연결하는 연결 함수(Link function)를 도입하여, 지수 가족(Exponential family)에 속하는 다양한 분포를 수용한다8). 이를 통해 이항 분포를 따르는 범주형 데이터를 처리하는 로지스틱 회귀나, 희귀 사건의 발생 횟수를 분석하는 포아송 회귀 등이 하나의 통일된 이론적 체계 안에서 다루어질 수 있게 되었다.
데이터의 차원이 높거나 변수 간의 다중 공선성 문제가 심각할 경우에는 정규화 회귀(Regularized Regression) 방법론이 적용된다. 이는 손실 함수에 계수의 크기에 비례하는 페널티 항을 추가하여 모델의 복잡도를 제어하는 기법이다. 릿지 회귀(Ridge Regression)는 계수의 제곱합을 제한하는 $ L_2 $ 정규화를 통해 계수의 크기를 축소함으로써 모델의 분산을 낮춘다9). 반면 로버트 팁시라니(Robert Tibshirani)가 제안한 라쏘 회귀(Lasso Regression)는 계수의 절대값 합을 제한하는 $ L_1 $ 정규화를 사용하여, 중요도가 낮은 변수의 계수를 정확히 0으로 수렴하게 함으로써 변수 선택(Variable selection) 기능을 동시에 수행한다10).
또한, 실측 데이터에 포함된 이상치(Outlier)로 인해 최소제곱 추정량이 왜곡되는 문제를 해결하기 위해 로버스트 회귀(Robust Regression)가 사용된다. 이는 오차의 제곱 대신 절대값이나 후버 손실(Huber loss) 함수를 사용하여 극단적인 관측치의 영향을 억제한다. 이처럼 확장된 회귀 모델들은 선형 모델의 기본 가정을 완화하거나 보완함으로써, 현대 데이터 과학의 복잡다단한 요구를 충족시키는 정교한 분석 도구로 기능하고 있다.
종속 변수가 정규 분포를 따르지 않는 경우에 적용할 수 있는 포괄적인 모델 체계를 설명한다.
이분법적 선택이나 범주형 종속 변수를 예측하기 위한 회귀 기법을 다룬다.
단위 시간이나 공간 내에서 발생하는 사건의 횟수를 분석하는 모델을 소개한다.
과적합을 방지하고 변수 선택의 효과를 얻기 위해 페널티를 부여하는 회귀 기법을 다룬다.
회귀 분석은 단순한 통계적 기법을 넘어 현대 학문과 산업 전반에서 의사결정을 지원하는 핵심적인 도구로 자리 잡고 있다. 이 방법론은 변수 간의 관계를 수치화하여 미래를 예측하거나 과거의 인과 관계를 규명하는 데 필수적인 역할을 수행한다. 실무적으로는 가설을 검정하고 변수 간의 영향력을 정량화함으로써 데이터에 기반한 합리적 판단을 가능하게 한다.
경제학과 경영학 분야에서 회귀 분석은 시장의 움직임을 이해하고 기업의 전략을 수립하는 데 광범위하게 사용된다. 대표적인 사례인 자산 가격 결정 모형(Capital Asset Pricing Model, CAPM)은 특정 자산의 기대 수익률과 위험 간의 관계를 선형 회귀식으로 표현한다. 개별 주식의 초과 수익률을 독립 변수인 시장 포트폴리오의 초과 수익률에 회귀시켜 얻은 계수인 베타(Beta)는 해당 자산의 체계적 위험을 측정하는 척도가 된다. 자산 $i$의 기대수익률 $E(R_i)$는 다음과 같은 회귀식의 구조를 통해 이해될 수 있다.
$$E(R_i) = R_f + \beta_i (E(R_m) - R_f)$$
여기서 $R_f$는 무위험 이자율, $E(R_m)$은 시장 포트폴리오의 기대수익률을 의미한다. 또한 미시경제학에서는 소비자의 수요 함수를 추정하기 위해 회귀 분석을 활용하며, 이를 통해 가격 변화에 따른 수요의 가격 탄력성을 산출하여 기업의 가격 정책 결정에 기여한다.
사회과학 연구에서 회귀 분석은 정책의 효과성을 검증하고 사회적 현상의 원인을 밝히는 인과 추론(Causal Inference)의 중추적 수단이다. 단순한 상관관계 분석을 넘어 다양한 통제 변수를 도입함으로써 외생적인 요인을 분리해내고, 특정 독립 변수가 종속 변수에 미치는 순수한 영향력을 파악한다. 특히 계량경제학적 기법인 이중차분법(Difference-in-Differences, DID)이나 회귀 불연속 설계(Regression Discontinuity Design, RDD) 등은 정부의 정책 변화나 특정 사건이 사회에 미친 영향을 정밀하게 평가하기 위해 회귀 모델의 구조를 응용한 형태이다. 이러한 분석 결과는 공공 정책의 입안과 수정에 있어 객관적인 통계적 근거를 제공한다.
자연과학과 의학 분야에서도 회귀 분석의 비중은 매우 높다. 신약 개발 과정의 임상 시험에서는 약물 투여량과 환자의 반응 간의 상관관계를 규명하기 위해 회귀 모델이 사용된다. 특히 종속 변수가 생존 여부나 발병 여부와 같은 이분법적 변수일 경우 로지스틱 회귀(Logistic Regression) 분석을 통해 특정 요인이 질병 발생 확률에 미치는 영향력인 오즈비(Odds Ratio)를 산출한다. 이는 역학(Epidemiology) 조사에서 특정 환경 요인이 공중보건에 미치는 위험도를 정량화하는 데 핵심적인 지표가 된다.
최근 데이터 과학과 머신러닝(Machine Learning)의 발전으로 회귀 분석은 대규모 데이터 세트를 처리하는 지도 학습(Supervised Learning)의 기본 알고리즘으로 재조명받고 있다. 전통적인 통계학에서의 회귀 분석이 모델의 해석 가능성과 가설 검정에 초점을 맞추었다면, 실무적인 머신러닝 환경에서는 예측 오차를 최소화하는 데 주안점을 둔다. 수만 개의 변수를 다루는 현대적 응용에서는 과적합(Overfitting) 문제를 해결하기 위해 라쏘 회귀(Least Absolute Shrinkage and Selection Operator, LASSO)나 릿지 회귀(Ridge Regression)와 같은 정규화 기법이 필수적으로 동원된다. 이러한 기술은 금융권의 신용 점수 산정, 전자상거래의 수요 예측 시스템, 공정 관리의 품질 예측 등 산업 현장의 실시간 시스템에 내재화되어 운용되고 있다.
수요 예측, 자산 가격 결정 모델, 마케팅 효과 분석 등에서의 회귀 분석 역할을 기술한다.
실험 데이터 분석, 인과 관계 추론, 정책 효과 평가 등에 사용되는 회귀 분석의 사례를 제시한다.