최소제곱법(Method of Least Squares)은 측정이나 실험을 통해 얻은 데이터 집합에 가장 적합한 수학적 모델을 결정하기 위해 사용되는 수치적 최적화 기법이다. 18세기 말 카를 프리드리히 가우스와 아드리앵마리 르장드르에 의해 독립적으로 고안된 이 방법은 관측값과 모델에 의한 예측값 사이의 차이인 잔차(residual)를 정의하고, 모든 데이터 포인트에 대한 잔차의 제곱합을 최소화하는 매개변수를 산출하는 것을 목적으로 한다. 과학적 관측에서 발생하는 오차를 체계적으로 처리하기 위해 고안된 이 기법은 오늘날 통계학, 수치해석, 기계 학습 등 데이터를 다루는 거의 모든 학문 분야의 기초가 되고 있다.1)
수학적 정의를 위해 관측된 데이터 쌍 $ (x_i, y_i) $가 $ i=1, 2, , n $까지 총 $ n $개 존재한다고 가정한다. 여기서 $ x_i $는 독립 변수, $ y_i $는 종속 변수이다. 추정하고자 하는 매개변수 벡터를 $ $라고 할 때, 모델 함수를 $ f(x, ) $로 정의하면 각 데이터 포인트에서의 잔차 $ r_i $는 다음과 같이 표현된다.
$ r_i = y_i - f(x_i, ) $
최소제곱법의 핵심인 목적 함수(objective function) $ S() $는 이 잔차들의 제곱의 합으로 구성된다.
$$ S(\beta) = \sum_{i=1}^{n} r_i^2 = \sum_{i=1}^{n} (y_i - f(x_i, \beta))^2 $$
이 함수 $ S() $를 최소화하는 매개변수 $ $를 찾는 과정이 최소제곱 추정의 본질이다. 목적 함수에서 잔차의 단순 합이 아닌 제곱합을 사용하는 이유는 크게 두 가지로 요약된다. 첫째, 잔차의 부호와 관계없이 오차의 크기를 양의 값으로 통일하여 누적할 수 있으며, 수학적으로는 미분 가능한 이차 형식(quadratic form)을 취하게 되어 최적화 문제를 해결하기 용이해진다. 둘째, 통계적 관점에서 오차가 정규 분포(normal distribution)를 따른다고 가정할 때, 최소제곱법을 통해 얻은 추정량은 최대 우도 추정법(Maximum Likelihood Estimation, MLE)에 의한 결과와 일치하는 통계적 정당성을 확보한다.2) 특히 가우스-마르코프 정리에 의거하여, 오차항이 서로 독립이고 등분산성을 가질 때 최소제곱 추정량은 모든 선형 불편 추정량 중 가장 작은 분산을 가지는 최선 선형 불편 추정량(Best Linear Unbiased Estimator, BLUE)이 된다.
최적해를 구하기 위해서는 목적 함수 $ S() $를 매개변수 $ $에 대해 편미분하여 그 결과가 0이 되는 지점을 찾는다. 선형 회귀 모델의 경우 이 과정은 정규 방정식(normal equations)이라 불리는 일련의 선형 연립 방정식으로 귀결되며, 이는 행렬대수를 통해 명시적인 해(closed-form solution)를 구할 수 있게 한다. 반면 비선형 모델의 경우에는 직접적인 해를 구하기 어려우므로 가우스-뉴턴 방법이나 레벤버그-마쿼트 알고리즘과 같은 반복적인 수치 최적화 기법을 동원한다.
기하학적 관점에서 최소제곱법은 선형 대수학의 직교 투영(orthogonal projection) 원리로 해석될 수 있다. 관측값들을 $ n $차원 공간의 하나의 벡터 $ $로 간주하고, 모델이 생성할 수 있는 모든 예측값의 집합을 해당 공간 내의 부분 공간(subspace)으로 정의할 때, 최소제곱해는 벡터 $ $와 이 부분 공간 사이의 유클리드 거리(Euclidean distance)를 최소화하는 점을 찾는 것과 같다. 이는 결과적으로 잔차 벡터가 모델의 열 공간(column space)과 직교할 때 달성되며, 이러한 기하학적 통찰은 데이터의 차원 축소나 신호 처리 분야에서도 중요한 이론적 배경을 제공한다.
최소제곱법(Least Squares Method)은 관측된 데이터와 수학적 모델 사이의 적합도를 측정하기 위해 잔차(residual)의 제곱합을 최소화하는 방식으로 매개변수(parameter)를 추정하는 수치해석적 최적화 기법이다. 특정 물리적 현상이나 사회적 현상을 설명하기 위해 설정된 함수 모델이 실제 측정값과 완벽하게 일치하지 않을 때, 최소제곱법은 발생한 오차를 통계적으로 가장 타당한 방식으로 처리하여 최적의 근사해를 제공한다. 이 방법론은 통계학, 계량경제학, 측량학 등 데이터를 다루는 거의 모든 학문 분야에서 회귀 분석의 기초로 활용된다.
임의의 시스템에서 독립 변수 $ x_i $에 대응하는 종속 변수의 측정값을 $ y_i $라 하고, 이를 설명하기 위한 모델 함수를 $ f(x, ) $라고 정의하자. 여기서 $ $는 모델의 특성을 결정하는 미지의 매개변수 벡터이다. 이때 각 관측점에서의 잔차 $ r_i $는 실제 측정값과 모델에 의한 예측값의 차이로 정의된다. $$ r_i = y_i - f(x_i, \beta) $$ 최소제곱법의 목적은 모든 관측치에 대한 잔차의 제곱을 합산한 목적 함수(objective function) $ S $를 최소화하는 $ $를 찾는 것이다. 목적 함수 $ S $는 다음과 같은 수식으로 표현된다. $$ S(\beta) = \sum_{i=1}^{n} r_i^2 = \sum_{i=1}^{n} (y_i - f(x_i, \beta))^2 $$
잔차를 단순히 합산하지 않고 제곱하여 합산하는 데에는 수학적 및 통계적 근거가 존재한다. 우선 잔차를 제곱함으로써 양수와 음수가 혼재된 오차들이 서로 상쇄되는 현상을 방지하고, 모든 오차가 양의 값을 가지도록 보정한다. 수학적으로는 절댓값 함수와 달리 제곱 함수는 모든 구간에서 미분 가능하므로, 미적분학을 이용하여 최솟값을 구하는 과정이 용이하다는 장점이 있다. 또한 확률론적 관점에서 측정 오차가 평균이 0이고 분산이 일정한 정규분포를 따른다고 가정할 때, 최소제곱법을 통해 얻은 추정량은 최대우도추정법(Maximum Likelihood Estimation, MLE)에 의한 추정량과 일치하게 된다.
이 방법론은 모델 함수의 형태에 따라 선형 최소제곱법(Linear Least Squares)과 비선형 최소제곱법(Non-linear Least Squares)으로 구분된다. 모델이 매개변수 $ $에 대해 선형 결합으로 이루어진 경우, 목적 함수의 편미분을 통해 유도된 정규 방정식(Normal Equation)을 풀어 단 한 번의 연산으로 전역 최적해를 구할 수 있다. 반면 모델이 비선형인 경우에는 직접적인 해를 구하기 어려우므로, 초기값을 설정한 후 반복적인 수치 계산을 통해 최적해에 수렴시키는 가우스 뉴턴 방법(Gauss-Newton method) 등의 알고리즘을 사용한다. 결과적으로 최소제곱법은 주어진 데이터의 변동성을 가장 잘 설명하면서도 특정 관측값에 과도하게 치우치지 않는 균형 잡힌 모델을 구축하는 데 핵심적인 역할을 수행한다.
최소제곱법의 핵심은 관측된 데이터와 모델이 제시하는 이론값 사이의 불일치를 정량화하고, 이를 최소화하는 최적의 매개변수(Parameter)를 결정하는 데 있다. 이때 불일치의 정도를 측정하는 척도로서 목적 함수(Objective function)가 정의된다. 일반적으로 $ n $개의 관측값 $ y_i $와 이에 대응하는 독립 변수 $ x_i $, 그리고 매개변수 $ $를 포함하는 모델 함수 $ f(x_i, ) $가 주어졌을 때, 각 데이터 포인트에서의 잔차(Residual) $ r_i $는 다음과 같이 정의된다.
$ r_i = y_i - f(x_i, ) $
목적 함수 $ S() $는 이러한 개별 잔차들의 제곱을 모두 합산한 형태를 취하며, 이를 잔차 제곱합(Sum of Squared Residuals, SSR) 또는 오차 제곱합이라 칭한다. 수학적 형태는 다음과 같다.
$$ S(\beta) = \sum_{i=1}^{n} r_i^2 = \sum_{i=1}^{n} [y_i - f(x_i, \beta)]^2 $$
이 함수를 최소화하는 것은 통계학 및 최적화 이론에서 매우 중요한 의미를 갖는다. 우선, 잔차를 단순히 합산하지 않고 제곱하는 이유는 크게 두 가지로 요약된다. 첫째, 잔차의 부호를 제거하여 모든 오차가 양의 값으로 기여하게 함으로써, 양의 오차와 음의 오차가 서로 상쇄되어 전체 오차가 작아 보이는 수치적 왜곡을 방지한다. 둘째, 수학적 편의성이다. 제곱 함수는 모든 구간에서 연속이며 미분 가능하므로, 미적분학의 기법을 활용하여 최솟값을 찾는 과정이 용이하다. 특히 선형 모델의 경우 목적 함수는 매개변수에 대한 이차 형식(Quadratic form)이 되어, 항상 아래로 볼록한 볼록 함수(Convex function)의 특성을 지닌다. 이는 국소 최솟값(Local minimum)이 곧 전역 최솟값(Global minimum)이 됨을 보장하며, 유일한 최적해를 산출할 수 있는 수학적 근거가 된다.
행렬 대수의 관점에서 목적 함수를 재구성하면 그 구조적 특징이 더욱 명확해진다. 잔차들을 성분으로 하는 벡터를 $ $이라 할 때, 목적 함수는 잔차 벡터의 L2 노름(L2 norm)의 제곱으로 표현될 수 있다.
$$ S(\beta) = \|\mathbf{r}\|_2^2 = \mathbf{r}^T \mathbf{r} $$
이러한 정형화는 최소제곱법이 유클리드 공간에서 관측 데이터 벡터와 모델이 생성하는 부분 공간 사이의 거리를 최소화하는 기하학적 문제와 동일함을 시사한다. 또한, 통계적 관점에서 오차가 서로 독립이며 동일한 정규분포(Normal distribution)를 따른다고 가정할 때, 이 목적 함수를 최소화하는 것은 최대 우도 추정법(Maximum Likelihood Estimation, MLE)을 통해 얻는 해와 일치하게 된다. 따라서 최소제곱법의 목적 함수는 단순한 수치적 일치도를 넘어, 데이터의 확률적 특성과 기하학적 구조를 동시에 포괄하는 수학적 토대를 제공한다. 최종적으로 최적의 매개변수 $ $를 찾기 위해서는 목적 함수를 각 매개변수로 편미분하여 그 값이 0이 되는 임계점을 구하는 과정을 거치게 된다.
최소제곱법은 대수적인 오차 제곱합의 최소화 과정을 넘어, 선형대수학(Linear Algebra)의 벡터 공간(Vector Space) 이론을 통해 명확한 기하학적 의미를 획득한다. 이 관점에서 최소제곱법은 관측된 데이터 벡터를 모델이 생성할 수 있는 하위 부분 공간으로 직교 투영(Orthogonal Projection)하는 문제로 치환된다. 이러한 해석은 추정량의 성질을 직관적으로 이해하게 할 뿐만 아니라, 복잡한 통계적 모형을 기하학적 구조로 파악할 수 있는 근거를 제공한다.
$ n $개의 관측 데이터로 이루어진 종속 변수 벡터를 $ ^n $이라 하고, $ m $개의 독립 변수와 절편항을 포함하는 설계 행렬(Design Matrix)을 $ A ^{n m} $이라 정의한다. 이때 선형 모델의 예측값 $ = A $는 행렬 $ A $의 각 열 벡터들의 선형 결합(Linear Combination)으로 표현된다. 따라서 예측값 $ $가 가질 수 있는 모든 값의 집합은 $ A $의 각 열 벡터들이 생성하는 열 공간(Column Space), 즉 $ (A) $라는 $ ^n $의 부분 공간(Subspace)을 형성한다. 만약 관측 벡터 $ $가 이 열 공간 내에 존재하지 않는다면, 모델은 데이터를 완벽하게 설명할 수 없으며 필연적으로 오차가 발생하게 된다.
기하학적으로 오차의 크기를 최소화한다는 것은 $ n $차원 공간상에 존재하는 점 $ $와 부분 공간 $ (A) $ 사이의 유클리드 거리(Euclidean distance)를 최소화하는 $ (A) $ 상의 점 $ $를 찾는 것과 같다. 피타고라스 정리에 의해, 한 점에서 평면까지의 최단 거리는 그 점에서 평면에 내린 수선의 발까지의 거리임이 자명하다. 따라서 최적의 추정값 $ $는 $ $를 $ (A) $ 위로 직교 투영한 결과물이 된다. 이때 발생하는 잔차(Residual) 벡터 $ = - $는 부분 공간 $ (A) $와 수직을 이루어야 하며, 이를 직교성 원리(Orthogonality Principle)라고 한다.
직교성 원리에 따라 잔차 벡터 $ $는 $ A $의 모든 열 벡터와 직교해야 하므로, $ A $의 전치 행렬(Transpose Matrix)과 잔차 벡터의 곱은 영벡터가 되어야 한다. 이 관계를 수식으로 전개하면 다음과 같다.
$$ A^T (\mathbf{y} - A\hat{\mathbf{x}}) = \mathbf{0} $$
위 식을 분배 법칙에 따라 정리하면 최소제곱해를 구하기 위한 핵심 수식인 정규 방정식(Normal Equation)이 도출된다.
$$ A^T A\hat{\mathbf{x}} = A^T \mathbf{y} $$
만약 $ A^T A $의 역행렬(Inverse Matrix)이 존재한다면, 최적의 매개변수 벡터 $ $는 $ (A^T A)^{-1} A^T $로 결정된다.
이러한 기하학적 전개는 투영 행렬(Projection Matrix) $ P $의 개념으로 이어진다. 예측값 $ $는 $ = A = A(A^T A)^{-1} A^T $로 표현되는데, 여기서 $ P = A(A^T A)^{-1} A^T $를 관측 벡터를 부분 공간으로 사영하는 선형 연산자로 이해할 수 있다. 투영 행렬은 동일한 사영을 반복해도 결과가 변하지 않는 멱등성(Idempotency, $ P^2 = P $)과 대칭성(Symmetry, $ P^T = P $)이라는 중요한 대수적 성질을 갖는다. 결과적으로 최소제곱법의 기하학적 해석은 고차원 데이터 공간에서 정보의 손실을 최소화하며 모델이 허용하는 차원으로 데이터를 투영하는 최적의 선형 변환을 찾는 과정이라 할 수 있다.
최소제곱법(Method of Least Squares)의 기원은 18세기 말과 19세기 초 천문학 및 측지학 분야에서 직면했던 실질적인 문제 해결 과정과 궤를 같이한다. 당시 과학자들은 천체의 궤도를 결정하거나 지구의 형상을 정밀하게 측정하기 위해 수많은 관측 데이터를 수집하였으나, 측정 기기의 한계와 환경적 요인으로 인해 발생하는 오차를 처리하는 데 어려움을 겪었다. 미지수의 개수보다 관측 방정식의 수가 더 많은 과잉 결정계(Overdetermined system) 상황에서, 모든 관측치를 완벽하게 만족하는 단일해를 구하는 것은 불가능하였다. 이에 따라 여러 관측값으로부터 가장 신뢰할 수 있는 최적의 추정치를 도출하기 위한 수학적 원리의 정립이 절실히 요구되었다.
이러한 시대적 요구에 부응하여 최소제곱법을 학계에 처음으로 공식 발표한 인물은 프랑스의 수학자 아드리앵마리 르장드르(Adrien-Marie Legendre)이다. 그는 1805년 발표한 저서 『혜성 궤도 결정의 새로운 방법(Nouvelles méthodes pour la détermination des orbites des comètes)』의 부록에서 이 원리를 제안하였다. 르장드르는 각 관측값 $ y_i $와 모델에 의한 예측값 $ f(x_i) $ 사이의 차이인 잔차(Residual)를 정의하고, 이들의 제곱합을 최소화하는 방법론을 제시하였다.
$$ S = \sum_{i=1}^{n} [y_i - f(x_i)]^2 $$
그는 잔차의 단순 합이나 절댓값의 합을 이용하는 대신 제곱합을 선택함으로써, 미분을 통해 최적해를 산출하는 과정이 수학적으로 매우 간결해진다는 점을 통찰하였다. 르장드르의 접근은 확률론적 배경보다는 수치 해석적인 편의성과 논리적 명쾌함에 초점이 맞춰져 있었다.
독일의 수학자 카를 프리드리히 가우스(Carl Friedrich Gauss)는 1809년 저술한 『태양 주변을 원추 곡선 궤도로 회전하는 천체 운동 이론(Theoria motus corporum coelestium in sectionibus conicis solem ambientium)』에서 최소제곱법을 더욱 체계적으로 발전시켰다. 가우스는 자신이 이미 1795년부터 이 방법을 사용해 왔다고 주장하며 르장드르와 우선권 논쟁을 벌이기도 하였으나, 그의 진정한 공헌은 최소제곱법에 확률론적 정당성을 부여한 데 있다. 가우스는 관측 오차가 정규 분포(Normal distribution)를 따른다는 가정하에, 최소제곱법에 의한 추정치가 최대 우도 추정법(Maximum Likelihood Estimation)과 일치함을 증명하였다. 특히 그는 1801년 실종되었던 소행성 세레스(Ceres)의 위치를 단 몇 개의 관측 자료만으로 정확히 예측해냄으로써 이 방법의 실용적 위력을 전 세계에 입증하였다.3)
이후 피에르시몽 라플라스(Pierre-Simon Laplace)는 1812년 발간한 『확률론의 분석적 이론(Théorie analytique des probabilités)』에서 중심극한정리(Central Limit Theorem)를 이용하여 가우스의 오차 법칙을 보완하였다. 라플라스는 수많은 독립적인 미세 오차들이 합쳐질 때 그 전체 오차의 분포가 정규 분포로 수렴한다는 사실을 밝힘으로써, 오차가 반드시 정규 분포를 따라야 한다는 가우스의 전제를 일반적인 상황으로 확장시켰다.4) 이러한 일련의 과정을 거쳐 최소제곱법은 단순한 수치 계산 기법을 넘어 현대 통계학과 회귀 분석의 핵심적인 근간으로 자리 잡게 되었다.
18세기 천문학과 측지학의 발전은 관측 데이터의 정밀도를 확보하기 위한 수학적 방법론의 비약적인 진보를 이끌어냈다. 당시 과학자들은 아이작 뉴턴(Isaac Newton)의 고전 역학 체계를 바탕으로 행성과 혜성의 궤도를 예측하고자 하였으나, 실제 망원경을 통해 얻은 관측값은 이론적 계산값과 일치하지 않는 경우가 빈번하였다. 이러한 불일치는 관측 기구의 물리적 한계, 대기 굴절에 의한 왜곡, 그리고 관측자의 주관적 판단 등 통제 불가능한 다양한 요인에 의해 발생하는 오차(error)에서 기인하였다. 당시의 지배적인 과제는 이처럼 불확실성이 포함된 다수의 관측 데이터로부터 어떻게 가장 신뢰할 수 있는 최적의 참값을 도출해낼 것인가에 집중되었다.
초기 천문학자들은 동일한 천체에 대해 여러 번의 측정을 수행한 뒤, 그 데이터들을 처리하기 위해 산술 평균(arithmetic mean)이나 특정 관측치들을 조합하여 미지수를 줄여나가는 소거법을 사용하였다. 그러나 관측 기술이 정교해짐에 따라 미지수의 개수보다 훨씬 많은 수의 관측 방정식이 도출되는 과잉 결정계(overdetermined system) 문제가 대두되었다. 미지수가 $n$개이고 관측 식이 $m$개인 상황에서 $m > n$일 때, 모든 방정식을 동시에 만족하는 단일 해는 존재하지 않는다. 각 관측식은 다음과 같은 형태의 선형 방정식으로 표현될 수 있다.
$$y_i = a_{i1}x_1 + a_{i2}x_2 + \dots + a_{in}x_n + \epsilon_i \quad (i=1, \dots, m)$$
여기서 $y_i$는 관측값, $x_j$는 구하고자 하는 궤도 요소 등의 매개변수이며, $\epsilon_i$는 개별 관측에서 발생한 오차를 의미한다. 18세기 중반까지는 오차의 절대값의 합을 최소화하거나, 오차 중 최댓값을 최소화하는 미니맥스 전략(minimax strategy) 등이 논의되었으나, 이는 수학적으로 다루기 까다롭거나 통계적 정당성이 부족하다는 한계가 있었다.
이러한 상황에서 오차를 체계적으로 다루기 위한 오차론(theory of errors)이 형성되기 시작하였다. 특히 1801년 주세페 피아치(Giuseppe Piazzi)가 발견한 왜소행성 세레스(Ceres)의 궤도 재계산 문제는 결정적인 계기가 되었다. 세레스가 태양 근처로 사라진 후 다시 나타날 위치를 예측하기 위해서는 극히 적은 수의 초기 관측 자료만으로 정밀한 궤도를 복원해야 했다. 카를 프리드리히 가우스(Carl Friedrich Gauss)는 이 문제를 해결하기 위해 오차의 분포가 특정한 확률 법칙을 따른다는 가정하에 접근하였다. 그는 오차의 제곱합을 최소화하는 방향으로 매개변수를 추정할 때, 관측 데이터가 가질 수 있는 가장 높은 확률적 타당성을 확보할 수 있음을 통찰하였다.
가우스의 이러한 접근은 이후 정규 분포(normal distribution)의 개념으로 확장되었으며, 오차가 무작위적이고 독립적으로 발생할 때 그 합리적인 처리 방식이 왜 최소제곱법이어야 하는지를 수학적으로 뒷받침하였다. 이는 단순히 데이터를 정렬하는 기술을 넘어, 확률론적 관점에서 관측의 불확실성을 정량화하고 이를 최소화하려는 현대적 수리통계학의 시초가 되었다. 천문학적 관측의 정밀도를 높이려는 실용적 요구가 오차에 대한 엄밀한 수학적 분석을 가능케 하였고, 이는 결과적으로 물리적 법칙의 검증 가능성을 획기적으로 향상시켰다.
아드리앵마리 르장드르(Adrien-Marie Legendre)는 1805년 그의 저서 《혜성 궤도 결정의 새로운 방법》(Nouvelles méthodes pour la détermination des orbites des comètes)의 부록을 통해 최소제곱법을 학계에 최초로 공표하였다. 18세기 말 천문학과 측지학 분야에서는 동일한 천체나 지표면의 지점을 반복 측정할 때 발생하는 불일치를 해결하기 위한 수학적 원리가 절실히 요구되었다. 르장드르는 관측치와 모델 사이의 차이인 잔차(residual)의 제곱합을 최소화함으로써 미지의 매개변수를 추정하는 방식을 제안하였다. 그는 이 방법이 계산의 편의성을 제공할 뿐만 아니라, 양수와 음수의 오차가 서로 상쇄되도록 유도하여 가장 균형 잡힌 해를 산출한다는 점을 강조하였다. 르장드르의 접근은 순수하게 대수적인 최적화 관점에서 출발하였으며, 특정 확률 분포를 가정하지 않고도 데이터에 가장 적합한 모델을 찾을 수 있는 실용적인 틀을 마련하였다는 평가를 받는다.
반면 카를 프리드리히 가우스(Carl Friedrich Gauss)는 1809년 출판된 《천체 운동 이론》(Theoria motus corporum coelestium)에서 최소제곱법을 더욱 심화된 이론적 체계 위에 올려놓았다. 가우스는 르장드르보다 앞선 1795년부터 이미 이 기법을 고안하여 사용해왔다고 주장하였는데, 특히 1801년 소행성 세레스(Ceres)의 궤도를 극히 적은 관측 자료만으로 정확히 예측하여 재발견에 성공함으로써 그 효용성을 실증적으로 증명한 바 있다. 가우스의 결정적인 공헌은 최소제곱법을 확률론 및 오차론과 결합한 데 있다. 그는 관측 오차가 정규 분포(Normal distribution)를 따른다는 가설하에, 최소제곱법에 의한 추정치가 최대 우도 추정(Maximum Likelihood Estimation, MLE)의 결과와 일치함을 수학적으로 도출하였다. 이는 산술 평균이 가장 개연성 있는 값이라는 직관적 경험을 확률론적 정당성으로 연결한 것이며, 오늘날 가우스 분포라 불리는 오차 법칙의 확립으로 이어졌다.
두 수학자의 공헌은 최소제곱법이 현대 과학의 표준적인 분석 도구로 자리 잡는 데 서로 다른 차원에서 기여하였다. 르장드르가 방법론의 명문화와 실용적 전파를 주도했다면, 가우스는 통계적 추론의 관점에서 방법론의 최적성을 입증하였다. 르장드르는 잔차 $ r_i $에 대하여 제곱합 $ S = _{i=1}^{n} r_i^2 $을 최소화하는 수치적 해법을 명시적으로 제시하였고, 가우스는 이를 확장하여 오차의 분산과 신뢰도를 정량화할 수 있는 기틀을 닦았다. 가우스가 자신의 우선권을 주장하며 발생한 우선권 논쟁은 과학사에서 유명한 일화이나, 현대 학술적 관점에서는 두 사람의 기여를 상호 보완적인 것으로 이해한다. 가우스의 접근 방식은 이후 가우스-마르코프 정리(Gauss-Markov theorem)로 발전하여, 최소제곱 추정량이 일정한 조건하에서 최선 선형 불편 추정량(Best Linear Unbiased Estimator, BLUE)이 됨을 규명하는 핵심 근거가 되었다.5)
선형 최소제곱법(Linear Least Squares)은 추정하고자 하는 매개변수(parameter)가 선형 결합의 형태로 구성된 모델에서 잔차(residual)의 제곱합을 최소화하는 기법이다. 여기서 ’선형’이라는 용어는 독립 변수와 종속 변수의 관계가 반드시 직선임을 의미하는 것이 아니라, 모델의 구조가 매개변수에 대해 선형적임을 뜻한다. 예를 들어, 다항식 회귀 모델은 독립 변수에 대해서는 비선형적일 수 있으나, 매개변수 계수에 대해서는 선형적이므로 선형 최소제곱법의 범주에 포함된다. 이러한 특성 덕분에 선형 최소제곱법은 수치적으로 닫힌 형태의 해(closed-form solution)를 가질 수 있으며, 이는 반복적인 최적화 과정이 필수적인 비선형 최소제곱법과 구별되는 가장 큰 특징이다.
모델을 행렬 형태로 표현하면 분석과 계산이 용이해진다. 관측값 벡터를 $ $, 설계 행렬(design matrix)을 $ $, 추정할 매개변수 벡터를 $ $, 그리고 오차항 벡터를 $ $이라 할 때, 선형 모델은 $ = + $으로 정의된다. 이때 최소제곱법의 목적 함수(objective function) $ S() $는 다음과 같이 관측값과 모델 예측값의 차이인 잔차 벡터의 유클리드 노름(Euclidean norm)의 제곱으로 설정된다.
$$ S(\boldsymbol{\beta}) = \|\mathbf{y} - \mathbf{X}\boldsymbol{\beta}\|^2 = (\mathbf{y} - \mathbf{X}\boldsymbol{\beta})^T (\mathbf{y} - \mathbf{X}\boldsymbol{\beta}) $$
이 함수는 매개변수 $ $에 대한 2차 형식(quadratic form)이며, 수학적으로 볼록 함수(convex function)의 성질을 가지므로 전역 최솟값(global minimum)이 존재함이 보장된다.
최적의 매개변수 추정량 $ $를 구하기 위해 목적 함수를 $ $에 대해 편미분하여 0으로 놓는다. 이를 전개하면 다음과 같은 식을 얻는다.
$$ \frac{\partial S}{\partial \boldsymbol{\beta}} = -2\mathbf{X}^T(\mathbf{y} - \mathbf{X}\boldsymbol{\beta}) = \mathbf{0} $$
위 식을 정리하면 정규 방정식(Normal Equations)이라 불리는 선형 연립 방정식 체계인 $ ^T = ^T $를 도출할 수 있다. 만약 설계 행렬 $ $가 풀 랭크(full rank)를 만족하여 $ ^T $의 역행렬이 존재한다면, 최적해는 다음과 같이 유일하게 결정된다.
$$ \hat{\boldsymbol{\beta}} = (\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\mathbf{y} $$
여기서 $ (<sup>T)</sup>{-1}^T $는 $ $의 무어-펜로즈 유사역행렬(Moore-Penrose pseudoinverse)로 해석될 수 있다.
기하학적 관점에서 선형 최소제곱법은 선형 대수학의 투영(projection) 이론으로 설명된다. 관측값 벡터 $ $는 일반적으로 설계 행렬 $ $의 열벡터들이 생성하는 부분 공간인 열공간(column space) 내에 존재하지 않는다. 최소제곱법은 $ $를 이 열공간 위로 수직 투영하여, 열공간 내의 벡터 중 $ $와 가장 가까운 벡터 $ = $를 찾는 과정이다. 이때 잔차 벡터 $ = - $는 열공간의 모든 벡터와 직교하며, 이러한 직교성(orthogonality) 원리는 정규 방정식의 유도 과정과 논리적으로 일치한다.
선형 최소제곱법을 통해 얻은 추정량은 통계적으로도 우수한 성질을 지닌다. 오차항이 서로 독립이고 동일한 분산을 가지며 기댓값이 0이라는 조건을 만족할 때, 선형 최소제곱 추정량은 모든 선형 불편 추정량 중에서 분산이 가장 작은 최선 선형 불편 추정량(Best Linear Unbiased Estimator, BLUE)이 된다. 이를 가우스-마르코프 정리(Gauss-Markov theorem)라 하며, 현대적 해석을 통해 그 효율성이 재입증된 바 있다6). 또한 오차항이 정규 분포를 따른다고 가정할 경우, 이 추정량은 최대 가능도 추정법(Maximum Likelihood Estimation, MLE)으로 구한 결과와 동일해진다. 이러한 성질들은 선형 최소제곱법이 통계학 및 계량 경제학 등 다양한 학문 분야에서 데이터 분석의 근간이 되는 핵심 도구로 자리 잡게 된 이론적 토대가 된다.
정규 방정식(Normal Equation)은 선형 최소제곱법의 해를 구하기 위해 유도되는 핵심적인 선형 연립 방정식이다. 이 방정식은 관측 데이터와 모델 사이의 잔차 제곱합을 최소화하는 문제를 대수적으로 해결하는 표준적인 방법을 제시한다. 행렬 대수를 이용한 표현에서, $n$개의 관측값과 $p$개의 매개변수를 갖는 선형 모델은 다음과 같은 행렬 방정식으로 나타낼 수 있다.
$$ \mathbf{y} = X\boldsymbol{\beta} + \boldsymbol{\epsilon} $$
여기서 $\mathbf{y}$는 $n \times 1$ 크기의 종속 변수 벡터이며, $X$는 독립 변수들의 관측값을 포함하는 $n \times p$ 크기의 설계 행렬(Design Matrix)이다. $\boldsymbol{\beta}$는 추정하고자 하는 $p \times 1$ 크기의 매개변수 벡터이고, $\boldsymbol{\epsilon}$은 모델로 설명되지 않는 오차항 벡터를 의미한다. 최소제곱법의 목적은 실제 관측값 $\mathbf{y}$와 모델의 예측값 $X\boldsymbol{\beta}$ 사이의 차이인 잔차의 제곱합을 최소화하는 최적의 추정량 $\hat{\boldsymbol{\beta}}$를 찾는 것이다.
목적 함수로서의 잔차 제곱합(Sum of Squared Residuals, SSR) $S(\boldsymbol{\beta})$는 다음과 같이 벡터의 내적 형식으로 정의된다.
$$ S(\boldsymbol{\beta}) = \|\mathbf{y} - X\boldsymbol{\beta}\|^2 = (\mathbf{y} - X\boldsymbol{\beta})^T (\mathbf{y} - X\boldsymbol{\beta}) $$
이 식을 행렬 연산 법칙에 따라 전개하면 다음과 같은 스칼라 함수를 얻는다.
$$ S(\boldsymbol{\beta}) = \mathbf{y}^T \mathbf{y} - \mathbf{y}^T X\boldsymbol{\beta} - \boldsymbol{\beta}^T X^T \mathbf{y} + \boldsymbol{\beta}^T X^T X \boldsymbol{\beta} $$
이때 $\mathbf{y}^T X\boldsymbol{\beta}$는 스칼라 값이므로 그 전치 행렬인 $\boldsymbol{\beta}^T X^T \mathbf{y}$와 동일한 값을 가진다. 이를 바탕으로 식을 정리하면 다음과 같다.
$$ S(\boldsymbol{\beta}) = \mathbf{y}^T \mathbf{y} - 2\boldsymbol{\beta}^T X^T \mathbf{y} + \boldsymbol{\beta}^T X^T X \boldsymbol{\beta} $$
함수 $S(\boldsymbol{\beta})$가 최솟값을 갖기 위한 필요조건은 매개변수 벡터 $\boldsymbol{\beta}$에 대한 편미분 값이 0이 되는 것이다. 행렬 미분의 규칙을 적용하여 $S(\boldsymbol{\beta})$를 $\boldsymbol{\beta}$로 미분하면 다음과 같은 도함수를 얻는다.
$$ \frac{\partial S}{\partial \boldsymbol{\beta}} = -2X^T \mathbf{y} + 2X^T X \boldsymbol{\beta} = 0 $$
위 식을 만족하는 $\boldsymbol{\beta}$의 해를 $\hat{\boldsymbol{\beta}}$라고 할 때, 이를 정리하면 최종적으로 정규 방정식이 도출된다.
$$ X^T X \hat{\boldsymbol{\beta}} = X^T \mathbf{y} $$
정규 방정식에서 $X^T X$는 그람 행렬(Gram matrix)의 일종으로, 항상 대칭 행렬이며 반양의 정치 행렬(Positive semi-definite matrix)의 성질을 갖는다. 만약 설계 행렬 $X$의 각 열이 선형적으로 독립적이라면, 즉 $X$가 풀 랭크(Full rank)를 가진다면 $X^T X$는 가역 행렬이 된다. 이 조건 하에서 최적의 매개변수 추정량 $\hat{\boldsymbol{\beta}}$는 다음과 같이 유일한 해로 결정된다.
$$ \hat{\boldsymbol{\beta}} = (X^T X)^{-1} X^T \mathbf{y} $$
여기서 $(X^T X)^{-1} X^T$는 $X$의 무어-펜로즈 유사역행렬(Moore-Penrose pseudoinverse)이라 불리며, 정방 행렬이 아닌 행렬에 대해 역행렬과 유사한 역할을 수행한다.
정규 방정식의 도출 과정은 선형대수학의 기하학적 관점에서도 해석될 수 있다. 관측 벡터 $\mathbf{y}$를 $X$의 열 벡터들이 생성하는 하위 부분 공간인 열 공간(Column space)으로 직교 투영했을 때, 잔차 벡터 $\mathbf{r} = \mathbf{y} - X\hat{\boldsymbol{\beta}}$는 해당 열 공간과 수직을 이루어야 한다. 즉, $X^T (\mathbf{y} - X\hat{\boldsymbol{\beta}}) = \mathbf{0}$이라는 직교성 조건이 성립해야 하며, 이 기하학적 조건은 대수적으로 유도한 정규 방정식과 정확히 일치한다.
정규 방정식은 최소제곱 문제를 해결하는 가장 직관적인 방법이지만, 실제 수치 계산에서는 $X^T X$의 조건수(Condition number)가 커질 경우 역행렬 계산 시 수치적 불안정성이 발생할 위험이 있다. 따라서 고차원 데이터나 다중공선성이 존재하는 문제에서는 정규 방정식을 직접 풀기보다 QR 분해나 특잇값 분해(Singular Value Decomposition, SVD)를 이용한 수치해석적 접근법이 권장되기도 한다.
선형 최소제곱법의 해를 도출하는 과정은 선형대수학(Linear Algebra)의 행렬 연산을 통해 체계적으로 정식화된다. $ n $개의 관측값과 $ p $개의 매개변수를 갖는 선형 모델을 고려할 때, 각 관측 식은 독립 변수들의 선형 결합으로 표현된다. 이를 행렬 형태로 나타내면 다음과 같은 기본 방정식을 얻는다.
$$ \mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\epsilon} $$
여기서 $ $는 $ n $ 크기의 관측 벡터(observation vector)이며, $ $는 독립 변수들의 값으로 구성된 $ n p $ 크기의 설계 행렬(design matrix)이다. $ $는 추정하고자 하는 $ p $ 크기의 매개변수 벡터이며, $ $은 모델로 설명되지 않는 오차를 나타내는 $ n $ 크기의 오차항 벡터이다.
최소제곱법의 목적은 잔차(residual)의 제곱합을 최소화하는 최적의 매개변수 벡터 $ $를 찾는 것이다. 잔차 벡터 $ $는 실제 관측값과 모델에 의한 예측값의 차이로 정의되며, 다음과 같이 기술된다.
$$ \mathbf{r} = \mathbf{y} - \mathbf{X}\hat{\boldsymbol{\beta}} $$
최소화의 대상이 되는 목적 함수(objective function) $ S() $는 잔차 벡터의 내적, 즉 잔차 제곱합(Sum of Squared Residuals, SSR)으로 정의된다.
$$ S(\boldsymbol{\beta}) = \mathbf{r}^T \mathbf{r} = (\mathbf{y} - \mathbf{X}\boldsymbol{\beta})^T (\mathbf{y} - \mathbf{X}\boldsymbol{\beta}) $$
위 식을 전치 행렬(transpose matrix)의 성질을 이용하여 전개하면 다음과 같은 형태가 된다.
$$ S(\boldsymbol{\beta}) = \mathbf{y}^T \mathbf{y} - \mathbf{y}^T \mathbf{X}\boldsymbol{\beta} - \boldsymbol{\beta}^T \mathbf{X}^T \mathbf{y} + \boldsymbol{\beta}^T \mathbf{X}^T \mathbf{X} \boldsymbol{\beta} $$
이때 $ ^T $는 스칼라 값이므로 그 전치인 $ ^T ^T $와 동일하다. 따라서 목적 함수는 다음과 같이 정리된다.
$$ S(\boldsymbol{\beta}) = \mathbf{y}^T \mathbf{y} - 2\boldsymbol{\beta}^T \mathbf{X}^T \mathbf{y} + \boldsymbol{\beta}^T \mathbf{X}^T \mathbf{X} \boldsymbol{\beta} $$
함수 $ S() $를 최소화하기 위해 매개변수 벡터 $ $에 대해 편미분을 수행하고, 그 결과를 영벡터로 둔다. 행렬 미분 법칙에 따라 미분하면 다음과 같은 조건을 얻는다.
$$ \frac{\partial S}{\partial \boldsymbol{\beta}} = -2\mathbf{X}^T \mathbf{y} + 2\mathbf{X}^T \mathbf{X} \boldsymbol{\beta} = \mathbf{0} $$
이를 정리하면 선형 최소제곱법의 핵심인 정규 방정식(Normal Equation)이 도출된다.
$$ \mathbf{X}^T \mathbf{X} \hat{\boldsymbol{\beta}} = \mathbf{X}^T \mathbf{y} $$
만약 설계 행렬 $ $가 열 풀 랭크(full column rank)를 가져 $ ^T $의 역행렬(inverse matrix)이 존재한다면, 최적 매개변수 벡터 $ $는 다음과 같이 유일하게 결정된다.
$$ \hat{\boldsymbol{\beta}} = (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \mathbf{y} $$
이 식에서 $ (^T )^{-1} ^T $ 부분은 무어-펜로즈 유사역행렬(Moore-Penrose pseudoinverse)의 특수한 형태로 간주될 수 있다. 또한, 이를 통해 계산된 예측값 $ = $는 관측 벡터 $ $를 설계 행렬의 열 공간(column space)으로 투영한 것과 같으며, 이때 작용하는 행렬 $ = (^T )^{-1} ^T $를 투영 행렬(projection matrix) 또는 해트 행렬(hat matrix)이라 부른다.
행렬 대수를 이용한 이러한 해법은 변수의 개수가 많은 복잡한 모델에서도 일관된 계산 절차를 제공하며, 컴퓨터를 이용한 수치 계산에서 매우 효율적으로 구현될 수 있다는 장점이 있다. 다만, 설계 행렬의 열들 사이에 강한 선형 상관관계가 존재하는 다중공선성 문제가 발생할 경우 $ ^T $가 특이 행렬(singular matrix)에 가까워져 수치적 불안정성이 초래될 수 있으므로 주의가 필요하다.
단순 선형 회귀(Simple Linear Regression)는 하나의 독립 변수(independent variable)와 하나의 종속 변수(dependent variable) 사이의 관계를 직선적인 형태로 모델링하는 통계적 기법이다. 이 모델의 핵심적인 목적은 관측된 데이터를 가장 잘 설명하는 직선의 방정식, 즉 회귀선(regression line)을 도출하는 데 있다. 최소제곱법은 이 과정에서 데이터 포인트들과 회귀선 사이의 수직 거리인 잔차(residual)의 제곱합을 최소화하는 매개변수(parameter)를 결정하는 수치적 기준으로 작용한다.
단순 선형 회귀 모델은 일반적으로 다음과 같은 선형 방정식의 형태로 정의된다.
$$ y_i = \beta_0 + \beta_1 x_i + \epsilon_i, \quad i = 1, 2, \dots, n $$
위 식에서 $ y_i $는 종속 변수의 관측값, $ x_i $는 독립 변수의 관측값이며, $ _0 $는 절편(intercept), $ _1 $은 기울기(slope)를 나타내는 미지의 매개변수이다. $ _i $는 모델이 설명하지 못하는 오차항(error term)으로, 일반적으로 평균이 0이고 분산이 일정한 정규 분포(normal distribution)를 따른다고 가정한다. 최소제곱법의 과제는 주어진 $ n $개의 데이터 쌍 $ (x_i, y_i) $를 바탕으로 실제 매개변수의 최적 추정량인 $ _0 $와 $ _1 $을 산출하는 것이다.
최적의 매개변수를 찾기 위해 최소화해야 할 목적 함수(objective function)는 잔차 제곱합(Residual Sum of Squares, RSS)으로 정의된다. 잔차 $ e_i $는 실제 관측값 $ y_i $와 모델에 의한 예측값 $ _i = _0 + _1 x_i $ 사이의 차이이며, 목적 함수 $ S(_0, _1) $는 다음과 같다.
$$ S(\hat{\beta}_0, \hat{\beta}_1) = \sum_{i=1}^{n} e_i^2 = \sum_{i=1}^{n} (y_i - \hat{\beta}_0 - \hat{\beta}_1 x_i)^2 $$
함수 $ S $를 최소화하는 $ _0 $와 $ _1 $을 찾기 위해 각 매개변수에 대하여 편미분(partial differentiation)을 수행한다. 최솟값에서는 각 편미분 계수가 0이 되어야 한다는 조건을 이용하면 다음과 같은 두 개의 연립 방정식을 얻을 수 있으며, 이를 정규 방정식(normal equations)이라 한다.
$$ \frac{\partial S}{\partial \hat{\beta}_0} = -2 \sum_{i=1}^{n} (y_i - \hat{\beta}_0 - \hat{\beta}_1 x_i) = 0 $$ $$ \frac{\partial S}{\partial \hat{\beta}_1} = -2 \sum_{i=1}^{n} x_i (y_i - \hat{\beta}_0 - \hat{\beta}_1 x_i) = 0 $$
첫 번째 식을 정리하면 $ y_i = n_0 + _1 x_i $가 되며, 이를 양변으로 $ n $으로 나누면 $ _0 = {y} - _1 {x} $라는 관계식을 얻는다. 여기서 $ {x} $와 $ {y} $는 각각 독립 변수와 종속 변수의 산술 평균(arithmetic mean)이다. 이 결과는 최소제곱법에 의한 회귀선이 반드시 데이터의 평균점 $ ({x}, {y}) $를 통과함을 시사한다. 두 번째 식에 $ _0 $의 관계식을 대입하여 기울기 $ _1 $에 대해 정리하면 다음과 같은 최종적인 추정식을 도출할 수 있다.
$$ \hat{\beta}_1 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^{n} (x_i - \bar{x})^2} $$
이 식의 분자는 $ x $와 $ y $의 공분산(covariance)에 비례하고, 분모는 $ x $의 분산(variance)에 비례한다. 결과적으로 기울기 $ _1 $은 독립 변수의 변동량 대비 두 변수가 함께 변하는 정도의 비율을 의미하게 된다. 또한 이는 두 변수 간의 피어슨 상관계수(Pearson correlation coefficient) $ r $와 각 변수의 표준편차 $ s_x, s_y $를 이용하여 $ _1 = r $로도 표현될 수 있다.
단순 선형 회귀에서의 최소제곱 추정량은 가우스 마르코프 정리(Gauss-Markov theorem)에 의해 일정한 가정 하에서 최선 선형 불편 추정량(Best Linear Unbiased Estimator, BLUE)임이 보장된다. 이는 모든 선형 불편 추정량(unbiased estimator) 중에서 최소제곱법으로 구한 추정량이 가장 작은 분산을 가짐을 의미하며, 통계적으로 가장 효율적인 추정을 수행하고 있음을 뒷받침한다. 단순 선형 회귀는 비록 구조는 단순하지만, 복잡한 다변량 분석이나 기계 학습(machine learning) 모델의 기초가 되는 논리적 토대를 제공한다는 점에서 학술적 가치가 매우 크다.
다중 선형 회귀(Multiple Linear Regression)는 종속 변수(dependent variable)와 두 개 이상의 독립 변수(independent variable) 사이의 선형적 관계를 정량적으로 분석하기 위한 수치적 방법이다. 단순 선형 회귀가 하나의 독립 변수만을 다루는 것과 달리, 다중 선형 회귀는 현실 세계의 복잡한 현상을 설명하기 위해 여러 요인을 동시에 고려하는 확장된 모델을 제공한다. 이 모델은 각 독립 변수가 종속 변수에 미치는 고유한 영향력을 분리하여 파악할 수 있게 하며, 현상의 예측 및 원인 분석을 위한 계량경제학과 통계학의 핵심 도구로 활용된다.
$ n $개의 관측값과 $ p $개의 독립 변수가 존재할 때, $ i $번째 관측치에 대한 다중 선형 회귀 모델은 다음과 같이 정의된다.
$$ y_i = \beta_0 + \beta_1 x_{i1} + \beta_2 x_{i2} + \dots + \beta_p x_{ip} + \epsilon_i, \quad i = 1, 2, \dots, n $$
여기서 $ y_i $는 종속 변수의 관측값이며, $ x_{ij} $는 $ i $번째 관측 단위의 $ j $번째 독립 변수 값이다. $ _0 $는 절편(intercept)을, $ _j , (j=1, , p) $는 각 독립 변수에 대응하는 회귀 계수(regression coefficient) 또는 매개변수(parameter)를 의미한다. $ _i $는 모델이 설명하지 못하는 무작위 오차(error)를 나타낸다.
이를 행렬 대수(Matrix algebra)로 표현하면 전체 데이터 구조를 간결하게 기술할 수 있다. 관측 벡터 $ $, 설계 행렬(design matrix) $ $, 계수 벡터 $ $, 오차 벡터 $ $을 다음과 같이 정의한다.
$$ \mathbf{y} = \begin{bmatrix} y_1 \\ y_2 \\ \vdots \\ y_n \end{bmatrix}, \quad \mathbf{X} = \begin{bmatrix} 1 & x_{11} & \dots & x_{1p} \\ 1 & x_{21} & \dots & x_{2p} \\ \vdots & \vdots & \ddots & \vdots \\ 1 & x_{n1} & \dots & x_{np} \end{bmatrix}, \quad \boldsymbol{\beta} = \begin{bmatrix} \beta_0 \\ \beta_1 \\ \vdots \\ \beta_p \end{bmatrix}, \quad \boldsymbol{\epsilon} = \begin{bmatrix} \epsilon_1 \\ \epsilon_2 \\ \vdots \\ \epsilon_n \end{bmatrix} $$
이 정의를 바탕으로 다중 선형 회귀 모델은 $ = + $이라는 간결한 행렬 방정식으로 환원된다. 여기서 설계 행렬의 첫 번째 열은 절편항을 포함하기 위해 모두 1로 설정된다.
최소제곱법의 목적은 실제 관측값 $ $와 모델에 의한 예측값 $ = $ 사이의 차이인 잔차(residual)의 제곱합을 최소화하는 $ $를 찾는 것이다. 목적 함수인 잔차 제곱합(Residual Sum of Squares, RSS) $ S() $는 다음과 같이 정의된다.
$$ S(\boldsymbol{\beta}) = \sum_{i=1}^{n} (y_i - \mathbf{x}_i^T \boldsymbol{\beta})^2 = (\mathbf{y} - \mathbf{X}\boldsymbol{\beta})^T (\mathbf{y} - \mathbf{X}\boldsymbol{\beta}) $$
이 함수를 최소화하기 위해 $ $에 대해 편미분을 수행하여 그 결과가 0이 되는 지점을 찾으면, 다음과 같은 정규 방정식(Normal Equation)을 얻게 된다.
$$ \mathbf{X}^T \mathbf{X} \hat{\boldsymbol{\beta}} = \mathbf{X}^T \mathbf{y} $$
만약 설계 행렬 $ $의 열들이 서로 선형 독립(Linearly independent)하여 $ ^T $가 가역 행렬(Invertible matrix)이라면, 최소제곱 추정량(Ordinary Least Squares estimator, OLS estimator) $ $는 유일하게 존재하며 다음과 같이 결정된다.
$$ \hat{\boldsymbol{\beta}} = (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \mathbf{y} $$
기하학적 관점에서 다중 선형 회귀는 관측 벡터 $ $를 설계 행렬 $ $의 열벡터들이 생성하는 벡터 공간(Vector space)인 열 공간(Column space)으로 직교 투영(Orthogonal projection)하는 문제로 해석된다. 이때 추정된 값 $ = $는 해당 부분 공간 내에서 $ $와 유클리드 거리가 가장 가까운 점이 된다.
다중 선형 회귀에서 각 계수 $ _j $는 다른 모든 독립 변수의 값이 고정되었을 때, $ x_j $가 한 단위 증가함에 따라 변화하는 $ y $의 평균적인 변화량을 의미한다. 이는 단순 선형 회귀에서의 계수와 달리, 다른 변수들의 영향을 통제(control)한 상태에서의 한계 효과를 나타낸다.
그러나 독립 변수들 사이에 강한 선형 상관관계가 존재하는 경우 다중 공선성(Multicollinearity) 문제가 발생할 수 있다. 다중 공선성이 심각해지면 $ ^T $ 행렬이 특이 행렬(Singular matrix)에 가까워져 역행렬 계산의 수치적 불안정성이 증대되고, 회귀 계수의 분산이 매우 커져 모델의 신뢰성이 저하된다. 따라서 다중 선형 회귀 모델의 설계 시에는 변수 간의 상관 분석과 분산 팽창 계수(Variance Inflation Factor, VIF) 등을 통한 사전 검토가 필수적이다.
비선형 최소제곱법(Non-linear Least Squares, NLS)은 모델 함수가 매개변수(parameter)에 대하여 비선형적인 구조를 가질 때, 관측값과 모델 예측값 사이의 잔차(residual) 제곱합을 최소화하는 매개변수를 찾는 수치적 최적화 기법이다. 선형 최소제곱법에서는 정규 방정식을 통해 단 한 번의 행렬 연산으로 유일한 해를 도출할 수 있는 것과 달리, 비선형 모델에서는 매개변수와 종속 변수 간의 관계가 복잡하여 대수적인 폐쇄형 해(closed-form solution)를 직접 구하는 것이 일반적으로 불가능하다. 따라서 초기 추정값으로부터 시작하여 점진적으로 최적해에 접근하는 반복적 최적화 알고리즘을 필수적으로 수반한다.
비선형 최소제곱법의 목적 함수 $ S $는 $ n $개의 데이터 쌍 $ (x_i, y_i) $와 매개변수 벡터 $ $를 갖는 모델 함수 $ f(x_i, ) $에 대하여 다음과 같이 정의된다. $$ S(\boldsymbol{\beta}) = \sum_{i=1}^{n} [y_i - f(x_i, \boldsymbol{\beta})]^2 $$ 이 함수를 최소화하기 위해 매개변수 $ $에 대한 1차 편미분 값이 0이 되는 지점을 찾아야 하지만, $ f $의 비선형성으로 인해 결과 방정식은 매개변수에 대한 비선형 연립 방정식이 된다. 이를 해결하기 위해 수치 해석적 접근에서는 현재의 매개변수 값 $ ^{(k)} $ 주변에서 모델 함수를 테일러 전개(Taylor expansion)를 통해 선형적으로 근사한다. 이때 모델 함수의 각 성분을 매개변수로 미분한 야코비 행렬(Jacobian matrix)이 중요한 역할을 수행하며, 이를 통해 비선형 문제를 국소적인 선형 문제로 치환하여 해를 갱신한다.
비선형 최소제곱 문제를 해결하는 가장 기본적인 알고리즘은 가우스 뉴턴 방법(Gauss-Newton method)이다. 이 방법은 목적 함수의 헤세 행렬(Hessian matrix)을 야코비 행렬의 곱으로 근사하여 계산 복잡도를 줄이면서도 빠른 수렴 속도를 도모한다. 그러나 가우스 뉴턴 방법은 초기값이 실제 최적해에서 멀리 떨어져 있거나 야코비 행렬이 특이 행렬에 가까울 경우 수렴이 보장되지 않는다는 단점이 있다. 이러한 한계를 극복하기 위해 제안된 레벤버그 마쿼트 알고리즘(Levenberg-Marquardt algorithm)은 가우스 뉴턴 방법과 경사 하강법을 결합한 형태를 취한다. 이 알고리즘은 감쇠 인자를 도입하여 초기 단계에서는 안정적인 하강을 유도하고, 해에 근접할수록 가우스 뉴턴 방식으로 전환되어 효율적인 수렴을 달성한다7).
비선형 최소제곱법을 적용할 때 주의해야 할 핵심적인 요소는 초기값의 설정과 국소 최적해(local optimum) 문제이다. 선형 문제와 달리 비선형 목적 함수는 여러 개의 극솟값을 가질 수 있으므로, 잘못된 초기값에서 시작할 경우 전체 영역에서의 최솟값인 전역 최적해(global optimum)가 아닌 부적절한 지점에서 수렴이 멈출 수 있다. 또한, 통계적 관점에서 비선형 최소제곱 추정량은 표본의 크기가 충분히 클 때 최대 우도 추정법(Maximum Likelihood Estimation, MLE)의 결과와 일치하는 점근적 유효성을 갖지만, 소표본에서는 추정량의 편향이 발생할 수 있다는 점에 유의해야 한다8). 이러한 수치적, 통계적 특성으로 인해 비선형 최소제곱법은 물리적 모델링, 생물학적 반응 속도 분석, 위성 항법 시스템의 위치 결정 등 정밀한 매개변수 추정이 요구되는 다양한 학문 분야에서 핵심적인 도구로 활용되고 있다.
비선형 최소제곱법(Non-linear Least Squares)에서 모델 함수가 매개변수에 대해 비선형적일 경우, 선형 최소제곱법과 달리 정규 방정식을 통해 단 한 번의 행렬 연산으로 최적해를 도출하는 것이 불가능하다. 이는 목적 함수(Objective function)의 기울기가 0이 되는 지점을 찾는 조건이 매개변수에 대한 비선형 연립 방정식의 형태를 띠어 대수적인 해법을 허용하지 않기 때문이다. 따라서 이러한 문제를 해결하기 위해서는 임의의 초기 추정값에서 시작하여 점진적으로 최적의 해에 접근하는 반복적 최적화 알고리즘(Iterative optimization algorithm)의 도입이 필수적이다. 수치해석의 관점에서 반복적 방법론은 복잡한 비선형 오차 곡면 위에서 잔차(residual)의 제곱합이 최소가 되는 지점을 찾아가는 일련의 수치적 탐색 과정이라 할 수 있다.
반복적 최적화의 핵심은 현재 단계의 매개변수 값인 $ ^{(k)} $에서 잔차의 제곱합을 효과적으로 줄일 수 있는 수정 방향과 크기를 결정하여 다음 단계의 추정값 $ ^{(k+1)} $을 갱신하는 데 있다. 일반적인 갱신 식은 다음과 같이 정의된다.
$$ \boldsymbol{\beta}^{(k+1)} = \boldsymbol{\beta}^{(k)} + \Delta \boldsymbol{\beta} $$
여기서 $ $는 증분 벡터(increment vector)를 의미한다. 이 증분을 결정하기 위해 대부분의 알고리즘은 비선형 함수를 현재 지점 근방에서 테일러 급수(Taylor series)를 이용하여 선형적으로 근사하는 방식을 취한다. 모델 함수 $ f(x, ) $를 매개변수 $ $에 대해 1차 근사하면, 비선형 문제는 각 반복 단계마다 국소적인 선형 최소제곱 문제로 치환된다. 이 과정에서 각 매개변수에 대한 모델 함수의 편미분 계수들로 구성된 자코비안 행렬(Jacobian matrix)이 계산의 중심적인 역할을 수행하며, 이를 통해 하강 방향을 탐색하게 된다.
반복적 접근 방식에서 가장 유의해야 할 요소는 초기값(Initial guess)의 설정이다. 비선형 목적 함수는 선형 문제와 달리 다수의 국소 최적해(Local optimum)를 가질 수 있는 비볼록(non-convex)한 특성을 띠는 경우가 많다. 만약 초기값이 실제 최적해에서 멀리 떨어져 설정될 경우, 알고리즘은 전체 영역에서의 최솟값인 전역 최적해(Global optimum)가 아닌 인접한 국소 최솟값으로 수렴(Convergence)하거나, 심지어 해를 찾지 못하고 발산할 위험이 있다. 따라서 연구자는 대상 시스템의 물리적 배경 지식이나 사전 분석 결과를 바탕으로 타당한 초기값을 선정해야 하며, 필요에 따라 다양한 초기값 후보군을 검토하여 해의 안정성을 확보해야 한다.
알고리즘의 반복 수행은 사전에 정의된 정지 규칙(Stopping criteria)을 만족할 때까지 계속된다. 일반적으로 매개변수의 변화량이 특정 임계치보다 작아지는 수렴 조건에 도달하거나, 목적 함수인 잔차 제곱합의 감소 폭이 허용 오차 범위 이내로 들어올 때, 또는 사전에 설정한 최대 반복 횟수에 도달했을 때 계산을 종료한다. 이러한 반복적 최적화 기법은 비선형 회귀 분석뿐만 아니라 기계 학습의 매개변수 학습 등 현대 데이터 과학의 수많은 영역에서 복잡한 시스템의 최적 상태를 규명하는 핵심적인 도구로 활용되고 있다.9)
가우스 뉴턴 방법(Gauss-Newton method)은 비선형 최소제곱 문제를 해결하기 위해 고안된 가장 대표적인 반복적 최적화 알고리즘이다. 선형 최소제곱법과 달리, 모델 함수가 매개변수에 대해 비선형적일 경우 최적해를 단번에 도출할 수 있는 정규 방정식이 존재하지 않는다. 따라서 가우스 뉴턴 방법은 매개변수의 현재 추정치 근방에서 비선형 함수를 테일러 전개(Taylor expansion)를 통해 선형 함수로 근사한 뒤, 이 선형화된 문제에 대해 최소제곱해를 반복적으로 구함으로써 점진적으로 최적해에 도달한다. 이 기법은 아이작 뉴턴의 이름을 딴 뉴턴 방법(Newton’s method)을 최소제곱 문제에 특화하여 변형한 것으로, 헤세 행렬(Hessian matrix)의 2차 미분항을 계산하는 복잡함을 피하면서도 빠른 수렴 속도를 제공하도록 설계되었다.
가우스 뉴턴 방법의 핵심은 모델 함수를 선형화하는 과정에 있다. $ n $개의 데이터 포인트 $ (x_i, y_i) $와 $ p $개의 매개변수를 갖는 매개변수 벡터 $ $에 대하여, 비선형 모델 함수를 $ f(x_i, ) $라 하자. 이때 각 데이터 포인트에서의 잔차(residual)는 $ r_i() = y_i - f(x_i, ) $로 정의된다. 최적화하고자 하는 목적 함수는 잔차 제곱합 $ S() = _{i=1}^{n} r_i()^2 $이다. 현재의 매개변수 추정치를 $ ^{(k)} $라고 할 때, 매우 작은 변화량 $ $에 대하여 모델 함수를 1차 테일러 전개하면 다음과 같은 선형 근사식을 얻는다.
$$ f(x_i, \boldsymbol{\beta}^{(k)} + \Delta \boldsymbol{\beta}) \approx f(x_i, \boldsymbol{\beta}^{(k)}) + \sum_{j=1}^{p} \frac{\partial f(x_i, \boldsymbol{\beta}^{(k)})}{\partial \beta_j} \Delta \beta_j $$
위 식에서 각 매개변수에 대한 모델 함수의 편미분 계수들로 구성된 행렬을 야코비 행렬(Jacobian matrix)이라 하며, 이를 $ $로 표기한다. 야코비 행렬의 각 성분은 $ J_{ij} = $로 정의된다. 이를 행렬 형태로 나타내면 잔차 벡터 $ (^{(k)} + ) $는 다음과 같이 근사된다.
$$ \mathbf{r}(\boldsymbol{\beta}^{(k)} + \Delta \boldsymbol{\beta}) \approx \mathbf{r}(\boldsymbol{\beta}^{(k)}) - \mathbf{J} \Delta \boldsymbol{\beta} $$
이제 비선형 최소제곱 문제는 $ $에 대한 선형 최소제곱 문제로 치환된다. 이 선형화된 체계에서 잔차 제곱합을 최소화하는 증분 $ $를 찾기 위해 정규 방정식의 형태를 적용하면 다음과 같은 선형 연립 방정식을 유도할 수 있다.
$$ (\mathbf{J}^T \mathbf{J}) \Delta \boldsymbol{\beta} = \mathbf{J}^T \mathbf{r}(\boldsymbol{\beta}^{(k)}) $$
이 방정식을 풀어 얻은 $ $를 사용하여 매개변수를 $ ^{(k+1)} = ^{(k)} + $와 같이 갱신한다. 이 과정을 잔차의 변화량이 충분히 작아지거나 미리 설정한 수렴 조건에 도달할 때까지 반복적으로 수행한다.
가우스 뉴턴 방법은 일반적인 뉴턴 방법과 비교했을 때 중요한 수학적 함의를 갖는다. 뉴턴 방법은 목적 함수의 2차 미분 정보인 헤세 행렬을 필요로 하지만, 가우스 뉴턴 방법은 목적 함수가 잔차의 제곱합이라는 특수한 구조를 가짐을 이용한다. 목적 함수 $ S() $의 헤세 행렬을 직접 계산하면 야코비 행렬의 곱인 $ 2^T $ 항과 잔차의 2차 미분이 포함된 항의 합으로 나타난다. 가우스 뉴턴 방법은 잔차가 0에 가깝거나 모델의 비선형성이 크지 않다는 가정하에 2차 미분항을 무시하고 $ 2^T $만을 사용하여 헤세 행렬을 근사한다. 이는 복잡한 2차 미분 계산을 생략하면서도 최적점 근처에서 뉴턴 방법에 준하는 빠른 수렴 속도를 유지할 수 있게 한다.
그러나 가우스 뉴턴 방법은 몇 가지 한계점을 지닌다. 우선, 초기 추정치 $ ^{(0)} $가 실제 최적해에서 멀리 떨어져 있을 경우, 선형 근사의 오류가 커져 알고리즘이 수렴하지 않고 발산할 위험이 있다. 또한, 야코비 행렬의 열들이 선형 독립(linearly independent)이 아니거나 조건수(condition number)가 매우 큰 경우, $ ^T $의 역행렬을 구하는 과정에서 수치적 불안정성이 발생한다. 이러한 수렴 안정성 문제를 해결하기 위해 증분 $ $에 일정한 보정 계수를 도입하거나, 레벤버그 마쿼트 알고리즘(Levenberg-Marquardt algorithm)과 같이 행렬의 대각 성분에 댐핑 인자를 추가하는 변형된 기법들이 실무에서 널리 사용된다. 그럼에도 불구하고 가우스 뉴턴 방법은 비선형 모델링과 매개변수 추정(parameter estimation) 분야에서 가장 기초적이면서도 강력한 수치적 도구로서 그 위상을 유지하고 있다.
비선형 최소제곱법의 반복적 해법 중 하나인 가우스 뉴턴 방법은 국소 최적해 근처에서 매우 빠른 수렴 속도를 보이지만, 초기 추정치가 최적해에서 멀리 떨어져 있거나 야코비 행렬(Jacobian matrix)이 수치적으로 불안정하여 특이 행렬(Singular matrix)에 가까워질 경우 수렴하지 못하고 발산하는 취약점을 지닌다. 반면 경사 하강법(Gradient Descent)은 목적 함수의 기울기 정보를 이용하여 안정적으로 하강하지만, 최적해에 근접할수록 수렴 속도가 현저히 저하되는 특성이 있다. 이러한 두 방법의 장점을 결합하고 단점을 상호 보완하기 위해 고안된 기법이 레벤버그 마쿼트 알고리즘(Levenberg-Marquardt Algorithm, LMA)이다.
레벤버그 마쿼트 알고리즘은 케네스 레벤버그(Kenneth Levenberg)가 1944년에 처음 제안하고, 이후 1963년 도널드 마쿼트(Donald Marquardt)가 이를 독자적으로 발전시키며 수치 최적화의 표준적 기법으로 자리 잡았다. 이 알고리즘의 핵심은 매개변수의 업데이트 방향을 결정하는 방정식에 댐핑 매개변수(damping parameter) $ $를 도입하여 가우스 뉴턴 방법과 경사 하강법 사이를 적응적으로 전환하는 것이다. 비선형 모델 $ f(x_i, ) $에 대한 $ n $개의 잔차(residual) 벡터를 $ $이라 하고, 매개변수 $ $에 대한 야코비 행렬을 $ $라고 할 때, LMA의 증분 벡터 $ $는 다음과 같은 감쇠 최소제곱(damped least squares) 방정식을 통해 산출된다.
$$ (\mathbf{J}^\top \mathbf{J} + \lambda \mathbf{I}) \boldsymbol{\delta} = \mathbf{J}^\top \mathbf{r} $$
여기서 $ $는 단위 행렬(Identity matrix)이다. 댐핑 인자 $ $는 알고리즘의 거동을 제어하는 핵심적인 역할을 수행한다. 만약 $ $의 값이 매우 크다면, 좌변의 항 중 $ $가 지배적으로 작용하여 업데이트 방향은 경사 하강법의 방향인 $ ^ $에 가까워진다. 이는 현재 지점에서 목적 함수가 감소하는 안전한 방향으로 이동하게 함으로써 초기 추정값이 부정확하거나 모델의 비선형성이 강할 때 알고리즘의 안정성을 보장한다. 반대로 $ $가 0에 가까워지면, 방정식은 가우스 뉴턴 방법의 형태와 일치하게 되어 최적해 근방에서 이차 수렴(quadratic convergence)에 준하는 빠른 속도로 해에 도달하게 된다.
도널드 마쿼트는 단순히 단위 행렬을 사용하는 대신, 야코비 행렬의 정보를 반영한 대각 행렬을 사용할 것을 제안하며 알고리즘을 개선하였다. 즉, $ (^ + (^)) = ^ $의 형태를 취함으로써, 매개변수 공간(Parameter space)에서 곡률이 작은 방향으로는 더 큰 보폭을 갖고 곡률이 큰 방향으로는 신중하게 이동하도록 조정하였다. 이러한 변형은 특히 매개변수 간의 축적(scale) 차이가 크거나 특정 방향으로의 감도가 예민한 문제에서 수렴 성능을 크게 향상시켰다.
결과적으로 레벤버그 마쿼트 알고리즘은 매 반복 단계마다 목적 함수의 감소 여부를 확인하며 $ $ 값을 동적으로 조정하는 전략을 취한다. 특정 단계에서 목적 함수가 성공적으로 감소하면 $ $를 줄여 가우스 뉴턴의 빠른 수렴 속도를 활용하고, 만약 목적 함수가 오히려 증가한다면 $ $를 늘려 경사 하강법의 안정성을 확보하며 다시 시도한다. 이러한 유연성 덕분에 LMA는 비선형 최소제곱 문제를 해결하기 위한 수치 최적화 분야에서 가장 신뢰받는 알고리즘이 되었으며, 오늘날 컴퓨터 비전의 구조 복원, 신경망의 역전파 학습, 로보틱스의 기구학 분석 등 다양한 공학 및 과학 분야에서 광범위하게 활용되고 있다.
최소제곱법(Method of Least Squares)을 통해 도출된 추정량은 단순한 수치적 최적해를 넘어, 일정한 통계적 가정이 충족될 때 매우 우수한 학술적 성질을 보유한다. 통계적 추정의 관점에서 최소제곱법의 타당성은 주로 가우스-마르코프 정리(Gauss-Markov Theorem)에 의해 뒷받침된다. 이 정리는 선형 회귀 모델에서 오차항의 기대값이 0이며, 각 오차항이 동일한 분산(Variance)을 가지고 서로 상관되어 있지 않다는 가정하에, 최소제곱 추정량(Ordinary Least Squares estimator, OLS estimator)이 최선 선형 불편 추정량(Best Linear Unbiased Estimator, BLUE)이 됨을 입증한다. 여기서 ’최선(Best)’이란 모든 선형 불편 추정량 중에서 분산이 최소임을 의미하며, 이는 최소제곱법이 데이터로부터 매개변수를 가장 정밀하게 추출할 수 있는 효율적인 도구임을 시사한다.
최소제곱 추정량의 가장 기초적인 통계적 성질은 불편성(Unbiasedness)이다. 불편성이란 추정량의 기대값이 실제 모수의 값과 일치하는 성질을 말한다. 선형 모델 $y = X\beta + \epsilon$에서 오차항 $\epsilon$이 독립 변수 $X$에 조건부로 기대값이 0이라는 가정, 즉 $E[\epsilon|X] = 0$이 만족될 때, OLS 추정량 $\hat{\beta}$의 기대값은 다음과 같이 유도된다. $$ E[\hat{\beta}] = E[(X^T X)^{-1} X^T y] = \beta + E[(X^T X)^{-1} X^T \epsilon] = \beta $$ 이러한 성질은 표본을 통해 얻은 추정치가 체계적인 편향(Bias)을 가지지 않음을 보장하며, 통계적 추론의 객관성을 확보하는 근거가 된다.
또한, 최소제곱법은 표본의 크기가 무한히 커짐에 따라 추정량이 실제 모수에 확률적으로 수렴하는 일치성(Consistency)을 갖는다. 이는 대수의 법칙(Law of Large Numbers)에 기반한 성질로, 실무적으로 대규모 데이터를 다룰 때 최소제곱법이 신뢰할 수 있는 결과를 산출함을 정당화한다. 일치성이 성립하기 위해서는 독립 변수들 사이에 완전한 선형 관계가 없는 비다중공선성 가정이 필수적이며, 이를 통해 설계 행렬의 역행렬이 존재함이 보장되어야 한다.
최소제곱법의 통계적 효율성은 오차항의 등분산성(Homoscedasticity)과 무상관성에 크게 의존한다. 만약 관측치마다 오차의 분산이 다르거나 오차항 간에 상관관계가 존재하는 경우, OLS 추정량은 여전히 불편성을 유지할 수 있으나 더 이상 분산이 최소인 ’최선’의 상태를 유지하지 못하게 된다. 이러한 상황에서는 가중 최소제곱법(Weighted Least Squares, WLS)이나 일반화 최소제곱법(Generalized Least Squares, GLS)을 적용하여 통계적 타당성을 보완해야 한다. 현대 통계학에서는 가우스-마르코프 정리의 가정을 완화하더라도 일정한 조건하에서 OLS 추정량이 여전히 점근적으로 효율적일 수 있음을 증명하며 그 적용 범위를 넓히고 있다10).
마지막으로, 최소제곱법의 타당성을 검토하는 과정에서는 잔차(Residual)의 분포를 분석하는 것이 필수적이다. 고전적 가설 검정에서는 오차항이 정규분포를 따른다고 가정하며, 이 경우 OLS 추정량은 최대 우도 추정법(Maximum Likelihood Estimation, MLE)으로 얻은 결과와 일치하게 된다. 정규성 가정이 충족되면 t-통계량이나 F-통계량을 이용한 모수 검정이 유효해지며, 이를 통해 모델의 통계적 유의성을 엄밀하게 판정할 수 있다.
가우스-마르코프 정리(Gauss-Markov Theorem)는 선형 회귀 모델에서 최소제곱법을 통해 도출된 추정량이 일정한 통계적 가정하에서 가장 우수한 성질을 지님을 수학적으로 증명한 정리이다. 이 정리는 선형 회귀 분석의 타당성을 뒷받침하는 이론적 근간이 되며, 최소제곱 추정량이 모든 선형 불편 추정량(Linear Unbiased Estimator) 중에서 가장 작은 분산(Variance)을 가진다는 사실을 골자로 한다. 통계학에서는 이를 최선 선형 불편 추정량(Best Linear Unbiased Estimator, BLUE)이라 칭하며, 여기서 ’최선’이란 추정량의 정밀도가 최대임을 의미한다.
가우스-마르코프 정리가 성립하기 위해서는 고전적 선형 회귀 모델의 가정이 충족되어야 한다. 먼저 모델은 매개변수에 대하여 선형적이어야 하며, 관측 데이터로부터 구성된 설계 행렬(Design Matrix) $ $는 각 열이 독립인 풀 랭크(Full Rank) 상태여야 한다. 핵심적인 가정은 오차항 $ $에 집중된다. 오차항의 기댓값은 모든 관측치에서 0이어야 하며($ E[] = $), 모든 오차항의 분산이 동일하다는 등분산성(Homoscedasticity)과 오차항들 사이에 상관관계가 없다는 비상관성(Non-autocorrelation) 가정이 필요하다. 이를 행렬 형태로 종합하면 오차항의 공분산 행렬은 $ Var() = ^2 $가 된다.
최소제곱 추정량 $ = (^)^{-1} ^ $가 BLUE임을 증명하기 위해, 우선 이 추정량이 종속 변수 $ $의 선형 결합임을 확인한다. $ = (^)^{-1} ^$라 정의하면 $ = $가 되어 선형성을 만족한다. 또한, $ E[] = E[( + )] = + E[] = $가 성립하므로, 이 추정량은 편향되지 않은 불편성(Unbiasedness)을 확보한다.
이제 임의의 다른 선형 불편 추정량 $ = $를 상정한다. 여기서 $ = + $로 표현할 수 있으며, $ $가 불편성을 유지하기 위해서는 $ E[] = ( + ) = $를 만족해야 하므로 $ = $이라는 조건이 도출된다. 이때 $ $의 분산은 다음과 같이 전개된다.
$$ Var(\tilde{\boldsymbol{\beta}}) = Var((\mathbf{W} + \mathbf{D})\mathbf{y}) = (\mathbf{W} + \mathbf{D})Var(\mathbf{y})(\mathbf{W} + \mathbf{D})^\top $$ $$ Var(\tilde{\boldsymbol{\beta}}) = \sigma^2 (\mathbf{W}\mathbf{W}^\top + \mathbf{D}\mathbf{D}^\top + \mathbf{W}\mathbf{D}^\top + \mathbf{D}\mathbf{W}^\top ) $$
위 식에서 $ ^= (^)^{-1} ^^= (^)^{-1} ()^= $이므로, 최종적으로 다음과 같은 관계가 성립한다.
$$ Var(\tilde{\boldsymbol{\beta}}) = Var(\hat{\boldsymbol{\beta}}) + \sigma^2 \mathbf{D}\mathbf{D}^\top $$
$ ^$는 양의 준정부호(Positive Semi-definite) 행렬이므로, 임의의 선형 불편 추정량의 분산은 최소제곱 추정량의 분산보다 항상 크거나 같다. 이는 최소제곱 추정량이 선형 불편 추정량 군 내에서 분산을 최소화하는 유일한 해임을 입증한다.
가우스-마르코프 정리의 가장 중요한 함의는 오차항이 반드시 정규 분포를 따를 필요가 없다는 점에 있다. 단지 1차 및 2차 모멘트(Moment)에 관한 기초적인 가정만으로도 최소제곱법의 최적성을 보장할 수 있다는 사실은 이 기법이 다양한 실무 분야에서 보편적으로 사용될 수 있는 강력한 이론적 근거를 제공한다. 다만, 등분산성이나 비상관성 가정이 위배되는 환경에서는 일반화 최소제곱법(Generalized Least Squares)과 같은 대안적 접근이 요구되며, 이 경우 가우스-마르코프 정리의 표준적인 형태는 수정된 모델에 맞춰 재해석된다.
최소제곱법을 통해 도출된 회귀 계수(Regression Coefficient)는 주어진 데이터 내에서 잔차(Residual)의 제곱합을 최소화하는 수치적 최적해를 제공하지만, 이것이 곧 해당 모델이 현상을 완벽하게 설명하거나 예측의 신뢰성을 보장한다는 의미는 아니다. 따라서 추정된 모델이 관측된 데이터를 얼마나 잘 대변하는지 정량적으로 평가하고, 모델 수립의 전제가 되는 통계적 가정들이 유효한지 검토하는 과정이 필수적이다. 이러한 평가는 크게 모델의 설명력을 측정하는 적합도(Goodness-of-Fit) 지표 분석과 오차의 성질을 규명하는 잔차 분석(Residual Analysis)으로 나뉜다.
모델의 전체적인 적합도를 평가하는 대표적인 지표는 결정 계수(Coefficient of Determination, $ R^2 $)이다. 결정 계수는 종속 변수(Dependent Variable)의 전체 변동 중 모델에 포함된 독립 변수(Independent Variable)들에 의해 설명되는 변동의 비율을 의미한다. 이를 정의하기 위해 먼저 총 제곱합(Total Sum of Squares, TSS), 회귀 제곱합(Regression Sum of Squares, RSS), 잔차 제곱합(Residual Sum of Squares, SSE) 사이의 관계를 다음과 같이 설정한다.
$$ TSS = \sum_{i=1}^{n} (y_i - \bar{y})^2, \quad RSS = \sum_{i=1}^{n} (\hat{y}_i - \bar{y})^2, \quad SSE = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 $$
여기서 $ y_i $는 실제 관측값, $ _i $는 모델에 의한 예측값, $ {y} $는 관측값의 평균이다. 결정 계수 $ R^2 $는 전체 변동 대비 설명된 변동의 비율로 계산되며, 그 값은 항상 0과 1 사이의 범위를 갖는다.
$$ R^2 = \frac{RSS}{TSS} = 1 - \frac{SSE}{TSS} $$
$ R^2 $가 1에 가까울수록 모델이 데이터를 잘 설명하고 있음을 의미한다. 그러나 다중 회귀 분석(Multiple Regression Analysis)에서는 모델에 독립 변수를 추가할수록 설명력의 유의성과 관계없이 $ R^2 $ 값이 기계적으로 상승하는 경향이 있다. 이러한 왜곡을 방지하기 위해 자유도(Degrees of Freedom)를 고려하여 보정한 수정된 결정 계수(Adjusted $ R^2 $)를 사용한다. 수정된 결정 계수는 불필요한 변수의 추가에 대해 벌점을 부여함으로써 모델의 효율성을 보다 객관적으로 평가할 수 있게 한다.
적합도 지표가 모델의 양적인 성능을 나타낸다면, 잔차 분석은 모델의 질적인 타당성을 검증한다. 최소제곱법의 통계적 유효성을 뒷받침하는 가우스-마르코프 정리는 오차항이 독립성(Independence), 등분산성(Homoscedasticity), 정규성(Normality)을 만족한다는 가정을 전제로 한다. 잔차는 오차항의 추정치이므로, 잔차의 분포를 통해 이러한 가정들의 충족 여부를 판단한다.
가장 보편적인 진단 방법은 잔차 산점도(Residual Plot)를 활용하는 것이다. 가로축에 예측값이나 독립 변수를, 세로축에 잔차를 배치했을 때 잔차가 특정 패턴 없이 0을 중심으로 무작위하게 흩어져 있어야 모델의 선형성(Linearity)과 등분산성 가정이 유지되는 것으로 본다. 만약 잔차가 깔때기 모양으로 퍼진다면 이는 오차의 분산이 일정하지 않은 등분산성 위배를 시사하며, 곡선 형태의 패턴이 나타나면 모델이 변수 간의 비선형적 관계를 적절히 포착하지 못했음을 의미한다.
또한, 오차항의 정규성 가정은 Q-Q 플롯(Quantile-Quantile Plot)을 통해 시각적으로 검토할 수 있다. 관측된 잔차의 분위수와 정규 분포의 이론적 분위수를 대응시켰을 때 데이터 포인트들이 직선상에 위치한다면 정규성 가정이 충족된 것으로 간주한다. 잔차 분석을 통해 발견된 이상 징후는 변수 변환이나 가중 최소제곱법의 도입 등 모델 수정의 근거가 되며, 최종적으로 모델의 추론 결과에 대한 학술적 신뢰도를 결정짓는 핵심적인 근거가 된다11)12).
최소제곱법(Method of Least Squares)은 오차항이 정규분포(Normal distribution)를 따르고 독립적이며 동일한 분산을 가진다는 가정하에서 매우 효율적인 추정치를 제공한다. 그러나 이러한 가정은 실제 관측 데이터에서 빈번하게 위배되며, 특히 데이터 집합에 이상치(Outlier)가 포함되어 있을 경우 최소제곱법의 신뢰성은 급격히 저하된다. 이상치란 대다수의 데이터가 형성하는 주된 경향성에서 크게 벗어난 관측값을 의미하며, 이는 측정 기기의 오류, 기록상의 실수, 혹은 모집단 자체가 가진 본질적인 이질성으로 인해 발생한다.
최소제곱법이 이상치에 취약한 근본적인 원인은 목적 함수(Objective function)의 구조에 있다. 이 기법은 잔차(Residual)의 제곱합을 최소화하는 것을 목표로 하므로, 특정 데이터 포인트의 잔차가 클수록 그 제곱값은 기하급수적으로 커지게 된다. 수학적으로 $ i $번째 관측값 $ y_i $에 대한 잔차를 $ r_i = y_i - _i $라고 할 때, 전체 손실은 $ r_i^2 $으로 정의된다. 만약 특정 지점에서 매우 큰 잔차가 발생하면, 최소제곱 알고리즘은 전체 손실을 줄이기 위해 해당 이상치에 가깝도록 회귀선(Regression line)을 무리하게 이동시킨다. 결과적으로 소수의 이상치가 전체 매개변수 추정치를 왜곡하여, 대다수의 정상적인 데이터를 제대로 설명하지 못하는 모델이 생성되는 현상이 발생한다.
이러한 수치적 민감도를 정량화하기 위해 강건 통계학(Robust statistics)에서는 영향력 함수(Influence function)와 붕괴점(Breakdown point)이라는 개념을 사용한다. 영향력 함수는 특정 위치에 관측값이 추가되었을 때 추정량이 얼마나 변하는지를 나타내며, 최소제곱 추정량의 영향력 함수는 잔차의 크기에 비례하여 무한히 증가하는 특성을 가진다. 또한, 붕괴점은 추정치가 완전히 무의미해지기 위해 필요한 이상치의 최소 비율을 의미하는데, 일반적인 최소제곱법의 붕괴점은 $ 1/n $에 불과하다. 이는 단 하나의 극단적인 이상치만으로도 전체 추정 결과를 완전히 망가뜨릴 수 있음을 시사한다.
이상치의 악영향을 억제하고 통계적 안정성을 확보하기 위해 고안된 성질이 강건성(Robustness)이다. 강건한 추정 방법론은 데이터의 일부가 오염되거나 기저 분포의 가정이 어긋나더라도 추정 성능을 일정 수준 이상으로 유지하는 것을 목표로 한다. 대표적인 대안으로는 최소절대편차(Least Absolute Deviations, LAD)법이 있다. 이는 잔차의 제곱 대신 절댓값의 합을 최소화하는 $ L_1 $ 노름(norm) 기반의 최적화 기법으로, 이상치에 의한 손실 증가 폭이 선형적이기 때문에 최소제곱법보다 극단값의 영향을 훨씬 적게 받는다. 이는 통계학에서 평균(Mean)보다 중앙값(Median)이 이상치에 더 강건한 것과 같은 원리이다.
더욱 정교한 접근법으로는 피터 후버(Peter Huber)가 제안한 M-추정(M-estimation)이 있다. M-추정은 잔차의 크기에 따라 손실 함수의 형태를 가변적으로 적용한다. 예를 들어, 후버 손실 함수(Huber loss function)는 잔차가 일정 임계값 이하일 때는 최소제곱법과 같이 제곱 함수를 적용하여 효율성을 높이고, 임계값을 초과하는 큰 잔차에 대해서는 절댓값 함수를 적용하여 이상치의 가중치를 제한한다.
$$ L_{\delta}(r) = \begin{cases} \frac{1}{2}r^2 & \text{for } |r| \le \delta \\ \delta(|r| - \frac{1}{2}\delta) & \text{for } |r| > \delta \end{cases} $$
여기서 $ $는 이상치를 판별하는 조율 매개변수이다. 이외에도 지렛대 점(Leverage point)의 영향을 제어하기 위한 S-추정이나 MM-추정 등 다양한 강건 회귀 기법들이 개발되어 실무에 적용되고 있다. 특히 반복 재가중 최소제곱법(Iteratively Reweighted Least Squares, IRLS)은 각 데이터 포인트에 가중치를 부여하고, 잔차가 큰 데이터의 가중치를 반복적으로 낮춤으로써 기존의 최소제곱 프레임워크 내에서도 강건한 해를 구할 수 있는 실용적인 수단을 제공한다. 이러한 강건성 확보 노력은 데이터의 불확실성이 높은 계량경제학, 컴퓨터 비전, 신호 처리 등의 분야에서 모델의 신뢰도를 높이는 핵심적인 역할을 수행한다.13)
최소제곱법은 오차항에 대한 엄격한 가정을 전제로 성립하는 기법이다. 특히 가우스 마르코프 정리(Gauss-Markov Theorem)에 따르면, 오차항이 서로 독립이고 동일한 분산을 갖는 등분산성(homoscedasticity)을 만족할 때 최소제곱 추정량은 최선 선형 불편 추정량(Best Linear Unbiased Estimator, BLUE)이 된다. 그러나 실제 관측 데이터에서는 특정 측정값의 정밀도가 낮아 분산이 일정하지 않거나, 시계열 데이터와 같이 오차항 사이에 자기상관(autocorrelation)이 존재하는 경우가 빈번하다. 이러한 상황에서 일반적인 최소제곱법을 그대로 적용하면 추정량의 효율성이 떨어지고 표준 오차가 왜곡될 수 있다. 따라서 기본 모델의 한계를 극복하기 위해 통계적 가정을 완화하거나 목적 함수를 수정하는 다양한 변형 기법이 고안되었다.
가중 최소제곱법(Weighted Least Squares, WLS)은 관측값마다 오차의 분산이 서로 다를 때 활용되는 대표적인 기법이다. 각 데이터 포인트의 신뢰도에 따라 서로 다른 가중치를 부여함으로써, 분산이 작은(정밀도가 높은) 데이터에는 높은 가중치를, 분산이 큰 데이터에는 낮은 가중치를 할당한다. 수학적으로는 잔차 제곱합에 가중치 행렬 $ W $를 도입하여 다음과 같은 목적 함수를 최소화한다. $$ S = \sum_{i=1}^{n} w_i (y_i - \hat{y}_i)^2 $$ 여기서 가중치 $ w_i $는 일반적으로 해당 관측값 분산의 역수($ 1/_i^2 $)에 비례하도록 설정한다. 이를 통해 변동성이 큰 데이터가 추정치에 미치는 과도한 영향을 억제하고 추정의 정밀도를 높일 수 있다.
일반화 최소제곱법(Generalized Least Squares, GLS)은 가중 최소제곱법을 더욱 일반화한 형태이다. 오차항들 사이에 상관관계가 존재하거나 분산이 일정하지 않은 경우, 오차항의 공분산 행렬(covariance matrix)인 $ $를 고려하여 매개변수를 추정한다. GLS 추정량 $ _{GLS} $는 행렬 대수를 통해 다음과 같이 도출된다. $$ \hat{\beta}_{GLS} = (X^T \Omega^{-1} X)^{-1} X^T \Omega^{-1} y $$ 이 방법은 데이터의 구조적 의존성을 모델 내부에 직접 수용함으로써 오차항의 상관계수가 0이 아니라는 가정을 처리할 수 있게 해준다14). 만약 공분산 행렬 $ $가 대각 행렬이라면 이는 가중 최소제곱법과 동일한 결과를 낳는다.
데이터 내에 극단적인 이상치(outlier)가 포함되어 있을 경우, 잔차의 제곱을 최소화하는 특성상 최소제곱법은 해당 이상치에 매우 민감하게 반응하여 모델의 전체적인 성능을 저하시킨다. 이를 해결하기 위해 강건 회귀(Robust Regression) 기법이 사용된다. 대표적인 방법인 M-추정(M-estimation)은 잔차의 제곱 대신 이상치의 영향을 덜 받는 다른 형태의 손실 함수(예: Huber 손실 함수)를 정의하여 최적화를 수행한다. 이는 데이터의 분포가 정규 분포에서 벗어나거나 꼬리가 두꺼운 분포를 가질 때 모델의 안정성을 보장하는 역할을 한다.
현대적인 데이터 분석 및 기계 학습 분야에서는 다중공선성(multicollinearity) 문제를 해결하고 모델의 일반화 성능을 높이기 위해 규제화 최소제곱법(Regularized Least Squares)이 널리 쓰인다. 이는 기존의 잔차 제곱합에 매개변수의 크기에 대한 벌점항(penalty term)을 추가하는 방식이다. 릿지 회귀(Ridge Regression)는 매개변수 제곱의 합($ L_2 $ 규제)을 추가하여 계수의 크기를 줄임으로써 모델의 분산을 감소시킨다15). 반면 라쏘 회귀(Lasso Regression)는 매개변수 절대값의 합($ L_1 $ 규제)을 추가하며, 이 과정에서 중요도가 낮은 변수의 계수를 정확히 0으로 만들어 변수 선택(variable selection)의 효과를 동시에 거둘 수 있다16). 이러한 규제화 기법은 편향-분산 트레이드오프(bias-variance tradeoff)를 조절하여 과적합(overfitting)을 방지하는 핵심적인 도구로 기능한다.
가중 최소제곱법(Weighted Least Squares, WLS)은 모델의 오차항(Error term)들이 서로 다른 분산(Variance)을 가지는 이분산성(Heteroscedasticity) 문제를 해결하기 위해 고안된 최소제곱법의 확장 형태이다. 표준적인 선형 최소제곱법은 모든 관측값의 오차가 동일한 분산을 가진다는 등분산성(Homoscedasticity)을 가정한다. 그러나 실제 측정 데이터에서는 관측 환경의 변화, 측정 기기의 정밀도 차이, 혹은 데이터 수집 대상의 규모 차이 등으로 인해 각 관측값의 신뢰도가 상이한 경우가 빈번하게 발생한다. 이러한 상황에서 표준 최소제곱법을 그대로 적용하면, 분산이 큰 관측값이 추정 과정에서 과도한 영향을 미치게 되어 추정량의 효율성(Efficiency)이 저하되고 표준 오차가 왜곡되는 문제가 나타난다. 가중 최소제곱법은 각 관측값에 그 신뢰도에 상응하는 가중치를 부여함으로써 이러한 왜곡을 보정하고 보다 정밀한 매개변수(parameter) 추정을 가능하게 한다.
가중 최소제곱법의 수학적 원리는 잔차(residual)의 제곱합을 계산할 때 각 항에 가중치(weight)를 곱하여 목적 함수(Objective function)를 재구성하는 것이다. $ n $개의 관측 데이터 $ (x_i, y_i) $에 대하여, 모델 함수를 $ f(x_i, ) $라고 할 때 가중 잔차 제곱합 $ S $는 다음과 같이 정의된다.
$$ S = \sum_{i=1}^{n} w_i (y_i - f(x_i, \beta))^2 $$
여기서 $ w_i $는 $ i $번째 관측값에 할당된 가중치이다. 통계적으로 가장 이상적인 가중치는 각 관측값 오차의 분산 $ _i^2 $의 역수, 즉 $ w_i = 1/_i^2 $로 설정하는 것이다. 이러한 설정을 통해 분산이 작아 신뢰도가 높은 데이터는 목적 함수에서 큰 비중을 차지하게 되고, 반대로 분산이 커서 불확실성이 높은 데이터는 상대적으로 적은 영향을 미치게 된다. 이는 결과적으로 전체 추정량의 분산을 최소화하는 효과를 낳는다.
이를 행렬 대수(Matrix Algebra)를 이용하여 일반화하면 더욱 체계적인 도출이 가능하다. 가중치 $ w_i $를 대각 성분으로 갖는 $ n n $ 크기의 대각 행렬을 가중 행렬(Weight matrix) $ $라 정의한다. 관측값 벡터를 $ $, 설계 행렬을 $ $, 추정하고자 하는 매개변수 벡터를 $ $라고 할 때, 가중 최소제곱법의 목적 함수는 다음과 같은 이차 형식(Quadratic form)으로 표현된다.
$$ S = (\mathbf{y} - \mathbf{X}\boldsymbol{\beta})^T \mathbf{W} (\mathbf{y} - \mathbf{X}\boldsymbol{\beta}) $$
위 식을 $ $에 대해 미분하여 최솟값을 갖는 조건을 구하면, 가중 최소제곱법의 정규 방정식(Normal Equation)인 $ (^T ) = ^T $를 얻게 된다. 이를 정리하면 최적의 매개변수 추정량 $ _{WLS} $는 다음과 같은 형태로 산출된다.
$$ \hat{\boldsymbol{\beta}}_{WLS} = (\mathbf{X}^T \mathbf{W} \mathbf{X})^{-1} \mathbf{X}^T \mathbf{W} \mathbf{y} $$
가중 최소제곱법을 통해 얻은 추정량은 오차항의 분산 구조가 정확히 반영되었을 때 가우스-마르코프 정리의 확장된 의미에서 최량 선형 불편 추정량(Best Linear Unbiased Estimator, BLUE)의 지위를 유지한다. 또한 오차항이 정규 분포를 따른다는 가정하에서는 최고 우도 추정(Maximum Likelihood Estimation, MLE)과 동일한 결과를 제공한다. 실무적으로는 각 관측값의 실제 분산 $ _i^2 $를 사전에 알 수 없는 경우가 많으므로, 먼저 표준 최소제곱법을 시행한 후 얻어진 잔차의 패턴을 분석하여 분산 함수를 추정하고, 이를 다시 가중치로 사용하는 실행 가능 가중 최소제곱법(Feasible Weighted Least Squares, FWLS) 절차를 거치기도 한다. 이러한 기법은 계량경제학, 측량학, 천체물리학 등 데이터의 정밀도가 일정하지 않은 다양한 학문 분야에서 데이터 분석의 타당성을 확보하는 핵심적인 도구로 활용된다.
일반화 최소제곱법(Generalized Least Squares, GLS)은 선형 회귀 모델에서 오차항들이 서로 독립이 아니거나 분산이 일정하지 않은 경우, 즉 이분산성(Heteroscedasticity)이나 자기상관(Autocorrelation)이 존재할 때 매개변수를 효율적으로 추정하기 위해 고안된 기법이다. 표준적인 일반 최소제곱법(Ordinary Least Squares, OLS)은 오차항이 독립 동일 분포(Independent and Identically Distributed, IID)를 따른다는 가정하에 최적의 성능을 발휘한다. 그러나 실제 데이터 관측 과정에서는 시계열 데이터의 인접한 오차들 사이에 상관관계가 나타나거나, 관측값의 크기에 따라 오차의 변동폭이 달라지는 현상이 빈번하게 발생한다. 이러한 상황에서 OLS를 그대로 적용할 경우, 추정량의 불편성(Unbiasedness)은 유지될 수 있으나 통계적 효율성이 상실되어 최소 분산을 보장하지 못하게 된다.
일반화 최소제곱법의 수학적 정식화를 위해 다음과 같은 선형 모델을 가정한다. $ y = X+ $ 여기서 $ y $는 $ n $ 종속 변수 벡터, $ X $는 $ n k $ 설계 행렬, $ $는 추정하고자 하는 매개변수 벡터이다. 이때 오차항 $ $의 기댓값은 0이며, 공분산 행렬(Covariance Matrix)은 다음과 같이 정의된다. $$ E[\epsilon\epsilon^T] = \sigma^2 \Omega $$ 일반적인 OLS에서는 $ $가 단위 행렬(Identity Matrix) $ I $인 것으로 간주하지만, GLS에서는 $ $가 대각 성분이 일정하지 않거나(이분산성) 비대각 성분이 0이 아닌(상관성) 임의의 양의 정부호 행렬(Positive Definite Matrix)임을 허용한다.
GLS의 핵심 원리는 오차항의 공분산 구조를 반영하여 원 데이터를 변환함으로써, 변환된 모델의 오차항이 다시 IID 조건을 만족하도록 만드는 데 있다. $ $가 양의 정부호 행렬이므로, 촐레스키 분해(Cholesky Decomposition) 등을 통해 $ ^{-1} = P^T P $를 만족하는 가역 행렬 $ P $를 도출할 수 있다. 원 모델의 양변에 이 변환 행렬 $ P $를 곱하면 다음과 같은 변환된 모델을 얻는다. $ Py = PX+ P$ 이때 새로운 오차항 $ ^* = P$의 공분산 행렬을 계산하면 $ E((* ^{*T})) = P E((T)) P^T = ^2 P P^T = ^2 I $가 되어, 변환된 공간에서는 다시 OLS의 가정이 충족됨을 알 수 있다. 이 변환된 모델에 OLS를 적용하여 잔차 제곱합을 최소화하는 해를 구하면 최종적인 GLS 추정량 $ _{GLS} $가 도출된다. $$ \hat{\beta}_{GLS} = (X^T \Omega^{-1} X)^{-1} X^T \Omega^{-1} y $$
이러한 GLS 추정량의 통계적 타당성은 에이킨의 정리(Aitken’s Theorem)에 의해 보장된다. 알렉산더 에이킨(Alexander Aitken)이 정립한 이 정리에 따르면, 오차항의 공분산 구조 $ $를 알고 있을 때 GLS 추정량은 모든 선형 불편 추정량 중에서 가장 작은 분산을 가지는 최적 선형 불편 추정량(Best Linear Unbiased Estimator, BLUE)이 된다17). 이는 OLS가 이분산성이나 자기상관이 존재하는 상황에서 더 이상 효율적이지 않다는 점을 시사하며, GLS가 통계적 추론의 정밀도를 높이는 결정적인 도구임을 뒷받침한다.
실제 학술 연구나 실무적 응용에서는 공분산 행렬 $ $의 구체적인 형태를 사전에 알 수 없는 경우가 많다. 이 경우 데이터로부터 $ $를 먼저 추정한 뒤 이를 GLS 식에 대입하는 가능 최소제곱법(Feasible Generalized Least Squares, FGLS)이 주로 사용된다. GLS는 계량경제학의 시계열 분석이나 패널 데이터 분석에서 오차 구조의 복잡성을 다루는 표준적인 방법론으로 자리 잡고 있으며, 공간 통계학이나 측량학 등 관측값 간의 지리적·시간적 연관성이 중요한 분야에서 광범위하게 활용된다18).
최소제곱법을 통한 추정은 가우스-마르코프 정리에 따라 일정한 가정하에서 최선 선형 불편 추정량(Best Linear Unbiased Estimator, BLUE)을 제공한다. 그러나 실제 데이터 분석 과정에서는 독립 변수 간의 강한 상관관계로 인한 다중공선성(Multicollinearity) 문제가 발생하거나, 표본의 크기에 비해 모델의 매개변수가 지나치게 많아지는 현상이 빈번하게 나타난다. 이러한 상황에서 일반적인 최소제곱 추정량은 잔차를 최소화하는 데에는 성공하지만, 모델의 계수가 비정상적으로 커지며 새로운 데이터에 대한 예측력이 급격히 떨어지는 과적합(Overfitting) 현상을 보인다. 이를 해결하기 위해 도입된 개념이 편향 회귀(Biased Regression)이다. 이는 추정량의 불편성(Unbiasedness)을 일부 포기하는 대신 계수의 크기를 제어함으로써 추정량의 분산을 획기적으로 낮추고, 결과적으로 전체적인 평균 제곱 오차(Mean Squared Error, MSE)를 줄이는 전략을 취한다.
규제화(Regularization)는 이러한 편향 회귀를 구현하는 핵심적인 수치적 수단으로, 기존의 목적 함수인 잔차 제곱합(RSS)에 모델의 복잡도를 정량화하는 벌점항(Penalty term)을 추가하는 방식이다. 규제화된 최소제곱법의 일반적인 목적 함수 $ J() $는 다음과 같이 정의된다.
$$ J(\beta) = \sum_{i=1}^{n} (y_i - \mathbf{x}_i^T \beta)^2 + \lambda P(\beta) $$
여기서 $ $는 규제의 강도를 조절하는 비음수의 하이퍼파라미터(Hyperparameter)이며, $ P() $는 매개변수 벡터에 대한 벌점 함수이다. $ $가 0일 때는 일반적인 최소제곱법과 동일하지만, $ $가 커질수록 모델은 계수의 크기를 줄이는 방향으로 최적화된다.
릿지 회귀(Ridge Regression)는 벌점항으로 매개변수의 $ L_2 $ 노름(Norm)의 제곱을 사용하는 방식이다. 1970년 호얼(Hoerl)과 케나드(Kennard)에 의해 제안된 이 방법은 계수의 제곱합을 제한함으로써 모든 계수를 균등하게 0에 가깝게 축소시킨다. 릿지 회귀의 추정량은 다음과 같은 정규 방정식의 변형을 통해 산출된다.
$$ \hat{\beta}_{ridge} = (\mathbf{X}^T \mathbf{X} + \lambda \mathbf{I})^{-1} \mathbf{X}^T \mathbf{y} $$
여기서 $ $는 단위 행렬이다. 릿지 회귀는 특히 설계 행렬 $ $가 풀 랭크(Full rank)가 아니거나 다중공선성으로 인해 $ ^T $의 역행렬 계산이 불안정할 때, 대각 요소에 $ $를 더함으로써 수치적 안정성을 보장한다. 릿지 회귀는 모든 변수를 모델에 유지하면서도 그 영향력을 감쇄시키는 특징을 지닌다.
반면 라쏘 회귀(Lasso Regression)는 벌점항으로 매개변수의 $ L_1 $ 노름을 사용하며, 1996년 로버트 티브시라니(Robert Tibshirani)에 의해 체계화되었다. 라쏘 회귀의 목적 함수는 계수의 절대값 합을 제한한다. 라쏘 회귀는 릿지 회귀와 달리 목적 함수가 미분 불가능한 지점을 포함하고 있어 닫힌 형태의 해(Closed-form solution)를 갖지 않으며, 좌표 하강법(Coordinate Descent)과 같은 반복적 최적화 알고리즘을 통해 해를 구한다. 라쏘 회귀의 결정적인 특징은 $ $가 충분히 클 때 일부 계수를 정확히 0으로 수렴시킨다는 점이다. 이는 모델에서 불필요한 변수를 자동으로 제거하는 변수 선택(Variable Selection) 기능을 수행하게 하며, 결과적으로 모델의 희소성(Sparsity)을 확보하여 해석력을 높이는 데 기여한다.
이러한 규제화 기법들은 편향-분산 트레이드오프(Bias-Variance Tradeoff) 관점에서 중요한 함의를 갖는다. 규제 강도 $ $를 높이면 모델의 편향은 증가하지만 분산은 감소하게 되는데, 적절한 지점에서 최적의 $ $를 선택함으로써 전체 예측 오차를 최소화할 수 있다. 이는 기계 학습의 일반화 성능을 확보하기 위한 필수적인 과정으로 간주된다. 현대의 데이터 과학에서는 릿지와 라쏘의 특성을 결합한 엘라스틱 넷(Elastic Net) 등 더욱 발전된 형태의 규제화 기법들이 활용되고 있으나, 그 근간은 모두 최소제곱법의 목적 함수를 변형하여 모델의 복잡도를 제어하려는 편향 회귀의 원리에 닿아 있다.
최소제곱법(Method of Least Squares)은 관측 데이터에 포함된 오차(Error)를 통계적으로 처리하여 최적의 해를 도출하는 방법론으로서, 자연과학과 사회과학을 막론하고 현대 학문의 거의 모든 영역에서 필수적인 분석 도구로 활용된다. 이 기법은 단순히 데이터를 함수에 맞추는 수치적 수단을 넘어, 불확실성이 존재하는 시스템 내에서 가장 신뢰할 수 있는 정보를 추출하는 이론적 근거를 제공한다.
측량학(Geodesy) 및 위성 항법 시스템(Global Navigation Satellite System, GNSS) 분야에서 최소제곱법은 지표면의 위치 결정과 궤도 산출의 핵심적인 알고리즘이다. 지표상의 한 점을 결정하기 위해 수행되는 삼각 측량이나 다각 측량 과정에서는 미지수의 수보다 많은 과잉 관측이 이루어지며, 각 관측값은 기기적 한계나 환경적 요인으로 인해 서로 일치하지 않는 모순을 발생시킨다. 이때 최소제곱법은 관측 방정식의 잔차(Residual) 제곱합을 최소화함으로써 각 관측점의 최확값(Most probable value)을 산출한다. 특히 글로벌 위치 결정 시스템(Global Positioning System, GPS) 수신기가 4개 이상의 위성으로부터 신호를 받아 사용자의 3차원 좌표와 시각 오차를 계산할 때, 비선형 방정식을 선형화한 후 반복적인 최소제곱 연산을 수행하여 정밀한 위치 정보를 제공한다.
경제학 및 계량경제학(Econometrics)에서는 변수 간의 인과관계를 규명하고 미래 가치를 예측하기 위한 회귀 분석(Regression analysis)의 표준적 추정 방식으로 자리 잡고 있다. 애덤 스미스 이후의 고전 경제학적 가설들을 실증적으로 검증하기 위해, 연구자들은 수집된 통계 자료에 최소제곱법을 적용하여 모델의 매개변수를 추정한다. 가우스-마르코프 정리(Gauss-Markov theorem)에 의해 일정한 통계적 가정이 충족될 경우, 최소제곱 추정량은 최선 선형 불편 추정량(Best Linear Unbiased Estimator, BLUE)이 됨이 수학적으로 증명되어 있다. 이는 경제 정책의 효과 분석이나 국내총생산(Gross Domestic Product, GDP) 성장률 예측 등 높은 신뢰도가 요구되는 의사결정 과정에서 최소제곱법이 가장 우선적으로 고려되는 이유이다.
현대 기계 학습(Machine Learning)과 인공지능(Artificial Intelligence) 분야에서 최소제곱법은 데이터를 학습시키는 최적화(Optimization) 기법의 근간을 이룬다. 가장 기본적인 지도 학습 모델인 선형 회귀(Linear regression)는 입력 데이터와 출력 타깃 사이의 관계를 최소제곱법을 통해 학습한다. 모델의 예측값과 실제값의 차이를 정의하는 손실 함수(Loss function)로 평균 제곱 오차(Mean Squared Error, MSE)를 사용하는 것은 최소제곱법의 원리를 직접적으로 계승한 것이다. 복잡한 인공 신경망(Artificial Neural Network)의 학습 과정에서 사용되는 경사 하강법(Gradient Descent)이나 다양한 정규화 기법들 역시, 근본적으로는 고차원 공간에서의 오차 제곱합을 최소화하려는 수치 해석적 시도에서 파생된 것이다.
물리학과 천문학 등 기초 과학 분야에서도 최소제곱법의 위상은 독보적이다. 실험실에서 얻은 데이터로부터 플랑크 상수나 중력 상수와 같은 물리적 상수를 정밀하게 추출할 때, 실험 오차를 배제하고 이론값에 가장 근접한 수치를 얻기 위해 이 방법이 사용된다. 천문학에서는 케플러의 법칙을 따르는 천체의 궤도 요소를 결정하거나, 우주 마이크로파 배경 복사 데이터를 분석하여 우주의 나이와 구성 성분을 추정하는 등 거시적 우주 모델의 타당성을 검증하는 데 핵심적인 역할을 수행한다. 이처럼 최소제곱법은 데이터로부터 객관적인 진리를 도출하려는 모든 정량적 연구의 기초적인 방법론으로 기능하고 있다.
측량학(Surveying) 및 측지학(Geodesy) 분야에서 최소제곱법은 관측값에 포함된 불가피한 오차(Error)를 합리적으로 배분하여 최적의 지형 정보를 도출하는 오차론(Theory of Errors)의 핵심 도구이다. 지표면의 위치를 결정하거나 지구의 형상을 결정할 때, 측량사는 미지점의 좌표를 구하기 위해 필요한 최소한의 관측 수보다 훨씬 많은 중복 관측(Redundant Observation)을 수행한다. 이때 발생하는 기하학적 모순을 해결하고 수학적 일관성을 확보하는 과정을 조정(Adjustment)이라 하며, 최소제곱법은 잔차의 제곱합을 최소화함으로써 가장 확률적으로 높은 최적값을 산출하는 표준적인 방법론을 제공한다.
위성 항법 시스템(Global Navigation Satellite System, GNSS)에서의 위치 결정 과정은 최소제곱법의 현대적 응용을 보여주는 대표적인 사례이다. GNSS 수신기는 최소 4기 이상의 위성으로부터 신호를 수신하여 자신의 3차원 좌표 $(x, y, z)$와 수신기 시계 오차 $(dt)$라는 네 가지 미지수를 산출한다. 각 위성으로부터 측정된 의사 거리(Pseudorange) $\rho_i$는 다음과 같은 비선형 방정식으로 표현된다.
$$ \rho_i = \sqrt{(x_i - x)^2 + (y_i - y)^2 + (z_i - z)^2} + c \cdot dt + \epsilon_i $$
위 식에서 $(x_i, y_i, z_i)$는 $i$번째 위성의 위치이며, $c$는 광속, $\epsilon_i$는 전리층 및 대류권 지연, 수신기 잡음 등을 포함한 오차 성분이다. 이 방정식은 미지수 $(x, y, z, dt)$에 대해 비선형 구조를 가지므로, 수신기는 초기 추정값을 설정한 뒤 테일러 전개(Taylor Expansion)를 통해 선형화된 모델을 구성한다. 이후 관측된 의사 거리와 추정된 거리 사이의 차이를 잔차(Residual)로 정의하고, 반복적인 최소제곱 연산을 수행하여 최적의 위치 해를 수렴시킨다.
위성 항법에서는 모든 관측치의 품질이 동일하지 않다는 점을 고려하여 가중 최소제곱법(Weighted Least Squares, WLS)이 널리 사용된다. 예를 들어, 위성의 고도각이 낮을수록 신호가 대기권을 통과하는 경로가 길어져 대기 굴절(Atmospheric Refraction)이나 다중 경로(Multipath) 오차의 영향이 커진다. 따라서 이러한 저고도 위성 신호에는 낮은 가중치를, 고도각이 높은 위성에는 높은 가중치를 부여하는 가중치 행렬 $W$를 도입함으로써 위치 결정의 정밀도를 향상시킨다. 이때 가중치가 적용된 최적 매개변수 벡터 $\hat{x}$는 다음과 같이 산출된다.
$$ \hat{x} = (A^T W A)^{-1} A^T W y $$
여기서 $A$는 선형화된 설계 행렬이며, $y$는 관측값 벡터이다. 이러한 연산 결과로 얻어지는 공분산 행렬(Covariance Matrix)은 추정된 위치의 신뢰도를 평가하는 정량적 척도가 된다. 특히 공분산 행렬의 대각 성분은 정밀도 저하율(Dilution of Precision, DOP) 지표의 산출 근거가 되며, 이는 위성의 기하학적 배치가 위치 결정 정밀도에 미치는 영향을 분석하는 데 활용된다. 결과적으로 최소제곱법은 측량 및 위성 항법 시스템에서 단순한 계산 수단을 넘어, 불확실성이 존재하는 관측 환경 하에서 공간 정보의 신뢰성을 보장하는 수학적 토대 역할을 수행한다.
경제학적 현상을 수치적으로 분석하고 규명하는 계량경제학(Econometrics)의 영역에서 최소제곱법은 가장 중추적인 역할을 수행한다. 경제학자들은 이론적으로 도출된 가설을 현실 데이터로 검증하기 위해 회귀 분석(Regression Analysis)을 활용하며, 이때 일반 최소제곱법(Ordinary Least Squares, OLS)은 변수 간의 관계를 정량화하는 표준적인 도구로 사용된다. 특히 소비 함수나 생산 함수와 같이 종속 변수와 독립 변수 간의 인과관계를 설정하고, 과거의 데이터를 바탕으로 한계 소비 성향이나 탄력성과 같은 핵심 경제 파라미터를 추정하는 데 필수적이다.
경제 분석에서 최소제곱법은 단순히 변수 사이의 상관관계를 보여주는 것을 넘어, 특정 경제 정책의 효과를 평가하거나 미래의 경제 지표를 예측하는 기초를 제공한다. 예를 들어, 거시경제학에서 국내총생산(GDP)과 실업률의 관계를 설명하는 오쿤의 법칙이나, 물가 상승률과 실업률 사이의 상충 관계를 보여주는 필립스 곡선 등은 모두 최소제곱법을 통한 실증적 분석을 거쳐 그 유효성이 논의된다. 이때 관측된 경제 데이터 $ Y_i $와 독립 변수들의 선형 결합 사이의 오차를 최소화하는 과정은 다음과 같은 수식으로 표현된다.
$$ Y_i = \beta_0 + \beta_1 X_{1i} + \beta_2 X_{2i} + \dots + \beta_k X_{ki} + \epsilon_i $$
위 식에서 최소제곱법은 오차항 $ _i $의 제곱합을 최소화하는 계수 $ $들을 찾아냄으로써, 독립 변수가 종속 변수에 미치는 평균적인 영향력을 산출한다. 이러한 추정치는 정부나 중앙은행이 통인플레이션 목표치를 설정하거나 재정 정책의 규모를 결정할 때 중요한 판단 근거가 된다.
그러나 경제 데이터는 자연과학 데이터와 달리 시계열적 상관관계나 이분산성(Heteroscedasticity)을 갖는 경우가 많아, 단순한 최소제곱법의 적용에는 주의가 요구된다. 경제 지표들은 시간의 흐름에 따라 서로 영향을 주고받는 자기상관(Autocorrelation)의 특성을 보이기 쉬우며, 이는 가우스-마르코프 정리가 전제하는 오차항의 독립성 가정을 위배할 수 있다. 따라서 현대 계량경제학에서는 이러한 한계를 극복하기 위해 일반화 최소제곱법(Generalized Least Squares, GLS)이나 도구 변수(Instrumental Variables)법 등을 병행하여 추정량의 불편성(Unbiasedness)과 효율성을 확보한다.
결과적으로 경제학 및 계량 분석에서의 최소제곱법은 복잡한 시장의 메커니즘을 단순화된 수치 모델로 변환하여, 정책 결정자가 객관적이고 과학적인 데이터에 기반해 의사결정을 내릴 수 있도록 돕는 실증 분석의 토대라 할 수 있다. 이는 미시경제학적 가계 소비 행태 분석부터 국가 단위의 경제 성장 모델링에 이르기까지 그 응용 범위가 매우 광범위하다.
기계 학습(Machine Learning)과 인공지능(Artificial Intelligence)의 영역에서 최소제곱법은 데이터를 통해 모델을 학습시키는 최적화 기법의 가장 원초적이면서도 핵심적인 이론적 토대를 형성한다. 현대적인 의미의 기계 학습은 주어진 데이터셋을 가장 잘 설명할 수 있는 모델의 매개변수(Parameter)를 찾아내는 과정으로 정의되며, 이 과정에서 모델의 예측값과 실제 관측값 사이의 차이를 정량화하는 손실 함수(Loss Function)의 설정이 필수적이다. 최소제곱법은 이러한 손실 함수를 잔차의 제곱합으로 정의함으로써, 복잡한 비선형 시스템이나 대규모 신경망 구조에서도 보편적으로 적용될 수 있는 최적화의 기준점을 제공한다.
기계 학습의 지도 학습(Supervised Learning) 회귀 문제에서 가장 널리 사용되는 평균 제곱 오차(Mean Squared Error, MSE)는 최소제곱법의 원리를 통계적 학습의 영역으로 직접적으로 확장한 형태이다. $ n $개의 학습 데이터에 대하여, 실제 타겟값 $ y_i $와 모델의 예측값 $ _i $ 사이의 평균 제곱 오차는 다음과 같이 정의된다.
$$ MSE = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 $$
이 수식을 최소화하는 것은 기하학적으로 데이터 포인트들과 모델 함수 사이의 유클리드 거리를 최소화하는 것과 같으며, 이는 모델이 데이터의 중심 경향성을 학습하도록 유도한다19). 특히 딥러닝(Deep Learning)의 초기 단계에서 신경망(Neural Network)의 가중치를 업데이트하기 위한 목적 함수로 최소제곱 기준이 채택되었으며, 이는 이후 다양한 형태의 손실 함수가 고안되는 기초가 되었다.
최소제곱법이 기계 학습에서 강력한 정당성을 갖는 이유는 확률론적 관점에서의 최대 우도 추정(Maximum Likelihood Estimation, MLE)과의 긴밀한 연관성에 있다. 만약 모델의 예측 오차가 서로 독립이며 동일한 가우시안 분포(Gaussian Distribution)를 따른다고 가정할 경우, 데이터에 대한 로그 우도(Log-likelihood)를 최대화하는 문제는 수학적으로 잔차의 제곱합을 최소화하는 문제와 완전히 동일해진다20). 이러한 통계적 동치성은 최소제곱법이 단순한 수치적 기법을 넘어, 데이터에 내재된 노이즈(Noise)를 확률적으로 처리하는 합리적인 추론 방식임을 뒷받침한다.
대규모 데이터를 다루는 현대 인공지능 환경에서는 정규 방정식을 통해 해를 직접 구하는 방식보다 경사 하강법(Gradient Descent)과 같은 반복적 최적화 알고리즘이 주로 사용된다. 최소제곱 목적 함수는 매개변수에 대해 볼록 함수(Convex Function)의 특성을 갖는 경우가 많아, 경사 하강법을 통해 전역 최적해(Global Optimum)에 안정적으로 수렴할 수 있는 장점을 제공한다. 또한, 모델의 복잡도가 증가함에 따라 발생하는 과적합(Overfitting) 문제를 해결하기 위해 최소제곱 함수에 L2 규제화(Regularization) 항을 추가한 릿지 회귀(Ridge Regression) 등은 현대 기계 학습 모델의 일반화 성능을 높이는 핵심적인 기법으로 자리 잡았다21).
결과적으로 최소제곱법은 고전적인 통계 분석의 도구에서 진화하여, 현대 인공지능의 복잡한 모델들이 데이터를 통해 지식을 습득하고 성능을 최적화하는 과정의 근간을 이루는 보편적 원리로 작용하고 있다.