문서의 선택한 두 판 사이의 차이를 보여줍니다.
| 다음 판 | 이전 판 | ||
| 최소제곱법 [2026/04/14 18:22] – 최소제곱법 sync flyingtext | 최소제곱법 [2026/04/14 18:45] (현재) – 최소제곱법 sync flyingtext | ||
|---|---|---|---|
| 줄 3: | 줄 3: | ||
| ===== 개요와 기본 원리 ===== | ===== 개요와 기본 원리 ===== | ||
| - | 최소제곱법의 정의와 기본적인 수학적 | + | 최소제곱법(Method of Least Squares)은 측정이나 실험을 통해 얻은 데이터 집합에 가장 적합한 수학적 모델을 결정하기 위해 사용되는 수치적 최적화 기법이다. 18세기 말 [[카를 프리드리히 가우스]]와 [[아드리앵마리 르장드르]]에 |
| + | )) | ||
| + | |||
| + | 수학적 정의를 위해 관측된 데이터 쌍 $ (x_i, y_i) $가 $ i=1, 2, , n $까지 총 $ n $개 존재한다고 가정한다. 여기서 $ x_i $는 [[독립 변수]], $ y_i $는 [[종속 변수]]이다. 추정하고자 하는 매개변수 벡터를 $ $라고 할 때, 모델 함수를 $ f(x, ) $로 정의하면 각 데이터 포인트에서의 잔차 $ r_i $는 다음과 같이 표현된다. | ||
| + | |||
| + | $ r_i = y_i - f(x_i, ) $ | ||
| + | |||
| + | 최소제곱법의 핵심인 [[목적 함수]](objective function) $ S() $는 이 잔차들의 제곱의 합으로 구성된다. | ||
| + | |||
| + | $$ S(\beta) = \sum_{i=1}^{n} r_i^2 = \sum_{i=1}^{n} (y_i - f(x_i, \beta))^2 $$ | ||
| + | |||
| + | 이 함수 $ S() $를 최소화하는 매개변수 $ $를 찾는 과정이 최소제곱 추정의 본질이다. 목적 함수에서 잔차의 단순 합이 아닌 제곱합을 사용하는 이유는 크게 두 가지로 요약된다. 첫째, 잔차의 부호와 관계없이 오차의 크기를 양의 값으로 통일하여 누적할 수 있으며, | ||
| + | )) 특히 [[가우스-마르코프 정리]]에 의거하여, | ||
| + | |||
| + | 최적해를 구하기 위해서는 목적 함수 $ S() $를 매개변수 $ $에 대해 [[편미분]]하여 그 결과가 0이 되는 지점을 찾는다. [[선형 회귀]] 모델의 경우 이 과정은 [[정규 방정식]](normal equations)이라 불리는 일련의 선형 연립 방정식으로 귀결되며, | ||
| + | |||
| + | 기하학적 관점에서 최소제곱법은 [[선형 대수학]]의 [[직교 투영]](orthogonal projection) 원리로 해석될 수 있다. 관측값들을 $ n $차원 공간의 하나의 벡터 $ $로 간주하고, | ||
| ==== 최소제곱법의 정의 ==== | ==== 최소제곱법의 정의 ==== | ||
| - | 측정값과 함수값의 차이인 잔차의 제곱합을 최소화하여 최적의 해를 구하는 수치적 방법론을 정의한다. | + | 최소제곱법(Least Squares Method)은 관측된 데이터와 수학적 모델 사이의 적합도를 측정하기 위해 [[잔차]](residual)의 제곱합을 최소화하는 방식으로 [[매개변수]](parameter)를 추정하는 [[수치해석]]적 최적화 기법이다. 특정 물리적 현상이나 사회적 현상을 설명하기 위해 설정된 함수 모델이 실제 |
| + | |||
| + | 임의의 시스템에서 독립 변수 $ x_i $에 대응하는 종속 변수의 측정값을 $ y_i $라 하고, 이를 설명하기 위한 모델 | ||
| + | |||
| + | 잔차를 단순히 합산하지 않고 제곱하여 합산하는 데에는 수학적 및 통계적 근거가 존재한다. 우선 잔차를 제곱함으로써 양수와 음수가 혼재된 오차들이 서로 상쇄되는 현상을 방지하고, | ||
| + | |||
| + | 이 방법론은 모델 함수의 형태에 따라 [[선형 최소제곱법]](Linear Least Squares)과 [[비선형 최소제곱법]](Non-linear Least Squares)으로 구분된다. 모델이 매개변수 $ $에 대해 선형 결합으로 이루어진 경우, 목적 함수의 [[편미분]]을 통해 유도된 [[정규 방정식]](Normal Equation)을 풀어 단 한 번의 연산으로 전역 최적해를 구할 수 있다. 반면 모델이 비선형인 경우에는 직접적인 해를 구하기 어려우므로, | ||
| ==== 수학적 목적 함수 ==== | ==== 수학적 목적 함수 ==== | ||
| - | 오차 제곱의 합을 최소화하기 | + | 최소제곱법의 핵심은 관측된 데이터와 모델이 제시하는 이론값 사이의 불일치를 정량화하고, |
| + | |||
| + | $ r_i = y_i - f(x_i, ) $ | ||
| + | |||
| + | 목적 함수 $ S() $는 이러한 개별 잔차들의 제곱을 모두 합산한 형태를 취하며, 이를 [[잔차 제곱합]](Sum of Squared Residuals, SSR) 또는 | ||
| + | |||
| + | $$ S(\beta) = \sum_{i=1}^{n} r_i^2 = \sum_{i=1}^{n} [y_i - f(x_i, \beta)]^2 $$ | ||
| + | |||
| + | 이 함수를 | ||
| + | |||
| + | 행렬 대수의 관점에서 목적 함수를 재구성하면 | ||
| + | |||
| + | $$ S(\beta) = \|\mathbf{r}\|_2^2 = \mathbf{r}^T \mathbf{r} $$ | ||
| + | |||
| + | 이러한 정형화는 최소제곱법이 [[유클리드 공간]]에서 관측 데이터 벡터와 모델이 생성하는 부분 공간 사이의 거리를 최소화하는 [[기하학]]적 문제와 동일함을 시사한다. 또한, 통계적 관점에서 오차가 서로 독립이며 동일한 [[정규분포]](Normal distribution)를 따른다고 가정할 때, 이 목적 함수를 최소화하는 것은 [[최대 우도 추정법]](Maximum Likelihood Estimation, MLE)을 통해 얻는 해와 일치하게 된다. 따라서 최소제곱법의 목적 함수는 단순한 수치적 일치도를 넘어, 데이터의 확률적 특성과 기하학적 구조를 동시에 포괄하는 수학적 토대를 제공한다. 최종적으로 최적의 매개변수 $ $를 찾기 위해서는 목적 함수를 각 매개변수로 [[편미분]]하여 그 값이 0이 되는 임계점을 구하는 과정을 거치게 된다. | ||
| ==== 기하학적 해석 ==== | ==== 기하학적 해석 ==== | ||
| - | 벡터 공간에서 관측값 벡터를 부분 공간으로 투영하는 관점에서의 최소제곱법을 설명한다. | + | 최소제곱법은 대수적인 오차 제곱합의 최소화 과정을 넘어, [[선형대수학]](Linear Algebra)의 [[벡터 공간]](Vector Space) 이론을 통해 명확한 기하학적 의미를 획득한다. 이 관점에서 |
| + | |||
| + | $ n $개의 관측 데이터로 이루어진 종속 변수 벡터를 $ ^n $이라 하고, $ m $개의 독립 변수와 절편항을 포함하는 [[설계 행렬]](Design Matrix)을 $ A ^{n m} $이라 정의한다. 이때 선형 모델의 예측값 $ = A $는 행렬 $ A $의 각 열 벡터들의 [[선형 결합]](Linear Combination)으로 표현된다. 따라서 예측값 $ $가 가질 수 있는 모든 값의 집합은 $ A $의 각 열 벡터들이 생성하는 [[열 공간]](Column Space), 즉 $ (A) $라는 $ ^n $의 부분 공간(Subspace)을 형성한다. 만약 관측 벡터 $ $가 이 열 공간 내에 존재하지 않는다면, | ||
| + | |||
| + | 기하학적으로 오차의 크기를 최소화한다는 것은 $ n $차원 공간상에 존재하는 점 $ $와 부분 공간 $ (A) $ 사이의 [[유클리드 거리]](Euclidean distance)를 최소화하는 $ (A) $ 상의 점 $ $를 찾는 것과 같다. [[피타고라스 정리]]에 의해, 한 점에서 | ||
| + | |||
| + | 직교성 원리에 따라 잔차 벡터 $ $는 $ A $의 모든 열 벡터와 직교해야 하므로, $ A $의 [[전치 행렬]](Transpose Matrix)과 잔차 벡터의 곱은 영벡터가 되어야 한다. 이 관계를 수식으로 전개하면 다음과 같다. | ||
| + | |||
| + | $$ A^T (\mathbf{y} - A\hat{\mathbf{x}}) = \mathbf{0} $$ | ||
| + | |||
| + | 위 식을 분배 법칙에 따라 정리하면 | ||
| + | |||
| + | $$ A^T A\hat{\mathbf{x}} = A^T \mathbf{y} $$ | ||
| + | |||
| + | 만약 $ A^T A $의 [[역행렬]](Inverse Matrix)이 존재한다면, | ||
| + | |||
| + | 이러한 기하학적 전개는 [[투영 행렬]](Projection Matrix) $ P $의 개념으로 이어진다. 예측값 $ $는 $ = A = A(A^T A)^{-1} A^T $로 표현되는데, | ||
| ===== 역사적 배경과 발전 ===== | ===== 역사적 배경과 발전 ===== | ||
| - | 최소제곱법이 | + | 최소제곱법(Method of Least Squares)의 기원은 18세기 말과 19세기 초 [[천문학]] 및 [[측지학]] 분야에서 직면했던 실질적인 문제 해결 과정과 궤를 같이한다. 당시 과학자들은 천체의 궤도를 결정하거나 지구의 형상을 정밀하게 측정하기 위해 수많은 관측 데이터를 수집하였으나, |
| + | |||
| + | 이러한 시대적 요구에 부응하여 최소제곱법을 학계에 처음으로 공식 발표한 인물은 프랑스의 | ||
| + | |||
| + | $$ S = \sum_{i=1}^{n} [y_i - f(x_i)]^2 $$ | ||
| + | |||
| + | 그는 잔차의 단순 합이나 절댓값의 합을 이용하는 대신 제곱합을 선택함으로써, | ||
| + | |||
| + | 독일의 수학자 [[카를 프리드리히 가우스]](Carl Friedrich Gauss)는 1809년 저술한 『태양 주변을 원추 곡선 궤도로 회전하는 천체 운동 이론(Theoria motus corporum coelestium in sectionibus conicis solem ambientium)』에서 최소제곱법을 더욱 체계적으로 발전시켰다. 가우스는 자신이 이미 1795년부터 이 방법을 사용해 왔다고 주장하며 르장드르와 우선권 논쟁을 벌이기도 하였으나, | ||
| + | )) | ||
| + | |||
| + | 이후 [[피에르시몽 라플라스]](Pierre-Simon Laplace)는 1812년 발간한 『확률론의 분석적 이론(Théorie analytique des probabilités)』에서 [[중심극한정리]](Central Limit Theorem)를 이용하여 가우스의 오차 법칙을 보완하였다. 라플라스는 수많은 독립적인 미세 오차들이 합쳐질 때 그 전체 오차의 분포가 정규 분포로 수렴한다는 사실을 밝힘으로써, | ||
| + | )) 이러한 일련의 과정을 거쳐 최소제곱법은 단순한 수치 계산 기법을 넘어 현대 [[통계학]]과 [[회귀 분석]]의 핵심적인 근간으로 자리 잡게 되었다. | ||
| ==== 천문학적 관측과 오차론 ==== | ==== 천문학적 관측과 오차론 ==== | ||
| - | 18세기 천체 관측 데이터의 오차를 보정하기 위해 발생한 학문적 요구를 설명한다. | + | 18세기 |
| + | |||
| + | 초기 천문학자들은 동일한 천체에 대해 여러 번의 측정을 수행한 뒤, 그 데이터들을 처리하기 위해 [[산술 평균]](arithmetic mean)이나 특정 관측치들을 조합하여 미지수를 줄여나가는 소거법을 사용하였다. 그러나 관측 기술이 정교해짐에 따라 미지수의 개수보다 훨씬 많은 수의 관측 방정식이 도출되는 [[과잉 결정계]](overdetermined system) 문제가 대두되었다. 미지수가 $n$개이고 관측 식이 $m$개인 상황에서 $m > n$일 때, 모든 방정식을 동시에 만족하는 단일 해는 존재하지 않는다. 각 관측식은 다음과 같은 형태의 [[선형 방정식]]으로 표현될 수 있다. | ||
| + | |||
| + | $$y_i = a_{i1}x_1 + a_{i2}x_2 + \dots + a_{in}x_n + \epsilon_i \quad (i=1, \dots, m)$$ | ||
| + | |||
| + | 여기서 $y_i$는 관측값, $x_j$는 구하고자 하는 궤도 요소 등의 매개변수이며, | ||
| + | |||
| + | 이러한 상황에서 오차를 체계적으로 다루기 위한 [[오차론]](theory of errors)이 형성되기 시작하였다. 특히 1801년 [[주세페 피아치]](Giuseppe Piazzi)가 발견한 왜소행성 [[세레스]](Ceres)의 궤도 재계산 문제는 결정적인 계기가 되었다. 세레스가 태양 근처로 사라진 후 다시 나타날 위치를 예측하기 위해서는 극히 적은 수의 초기 관측 자료만으로 정밀한 궤도를 복원해야 했다. [[카를 프리드리히 가우스]](Carl Friedrich Gauss)는 이 문제를 해결하기 위해 오차의 분포가 특정한 확률 법칙을 따른다는 가정하에 접근하였다. 그는 오차의 제곱합을 최소화하는 방향으로 매개변수를 추정할 때, 관측 데이터가 가질 수 있는 가장 높은 확률적 타당성을 확보할 수 있음을 통찰하였다. | ||
| + | |||
| + | 가우스의 이러한 접근은 이후 [[정규 분포]](normal distribution)의 개념으로 확장되었으며, | ||
| ==== 르장드르와 가우스의 공헌 ==== | ==== 르장드르와 가우스의 공헌 ==== | ||
| - | 최소제곱법을 | + | [[아드리앵마리 르장드르]](Adrien-Marie Legendre)는 1805년 그의 저서 《혜성 궤도 결정의 새로운 방법》(Nouvelles méthodes pour la détermination des orbites des comètes)의 부록을 통해 [[최소제곱법]]을 학계에 최초로 공표하였다. 18세기 말 [[천문학]]과 [[측지학]] 분야에서는 동일한 천체나 지표면의 지점을 반복 측정할 때 발생하는 불일치를 해결하기 위한 수학적 원리가 절실히 요구되었다. |
| + | |||
| + | 반면 [[카를 프리드리히 가우스]](Carl Friedrich Gauss)는 1809년 출판된 《천체 운동 이론》(Theoria motus corporum coelestium)에서 최소제곱법을 더욱 심화된 이론적 체계 위에 올려놓았다. 가우스는 르장드르보다 앞선 1795년부터 이미 이 기법을 고안하여 사용해왔다고 주장하였는데, | ||
| + | |||
| + | 두 수학자의 공헌은 최소제곱법이 현대 과학의 표준적인 분석 도구로 자리 잡는 데 서로 다른 차원에서 기여하였다. 르장드르가 방법론의 명문화와 실용적 전파를 주도했다면, | ||
| + | )) | ||
| ===== 선형 최소제곱법 ===== | ===== 선형 최소제곱법 ===== | ||
| - | 모델이 매개변수에 대해 선형인 | + | [[선형 최소제곱법]](Linear Least Squares)은 추정하고자 하는 [[매개변수]](parameter)가 선형 결합의 형태로 구성된 |
| + | |||
| + | 모델을 행렬 형태로 표현하면 분석과 계산이 용이해진다. 관측값 벡터를 $ $, 설계 행렬(design matrix)을 $ $, 추정할 매개변수 벡터를 $ $, 그리고 오차항 벡터를 $ $이라 할 때, 선형 모델은 $ = + $으로 정의된다. 이때 최소제곱법의 [[목적 함수]](objective function) $ S() $는 다음과 같이 관측값과 모델 예측값의 차이인 잔차 벡터의 [[유클리드 노름]](Euclidean norm)의 제곱으로 설정된다. | ||
| + | |||
| + | $$ S(\boldsymbol{\beta}) = \|\mathbf{y} - \mathbf{X}\boldsymbol{\beta}\|^2 = (\mathbf{y} - \mathbf{X}\boldsymbol{\beta})^T (\mathbf{y} - \mathbf{X}\boldsymbol{\beta}) $$ | ||
| + | |||
| + | 이 함수는 매개변수 $ $에 대한 2차 형식(quadratic form)이며, | ||
| + | |||
| + | 최적의 매개변수 추정량 $ $를 구하기 위해 목적 함수를 $ $에 대해 [[편미분]]하여 0으로 놓는다. 이를 전개하면 다음과 같은 식을 얻는다. | ||
| + | |||
| + | $$ \frac{\partial S}{\partial \boldsymbol{\beta}} = -2\mathbf{X}^T(\mathbf{y} - \mathbf{X}\boldsymbol{\beta}) = \mathbf{0} $$ | ||
| + | |||
| + | 위 식을 정리하면 [[정규 방정식]](Normal Equations)이라 불리는 선형 연립 방정식 체계인 $ ^T = ^T $를 도출할 수 있다. 만약 설계 행렬 $ $가 [[풀 랭크]](full rank)를 만족하여 $ ^T $의 [[역행렬]]이 존재한다면, | ||
| + | |||
| + | $$ \hat{\boldsymbol{\beta}} = (\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\mathbf{y} $$ | ||
| + | |||
| + | 여기서 $ (< | ||
| + | |||
| + | 기하학적 관점에서 선형 최소제곱법은 [[선형 대수학]]의 투영(projection) 이론으로 설명된다. 관측값 벡터 $ $는 일반적으로 설계 행렬 $ $의 열벡터들이 생성하는 부분 공간인 [[열공간]](column space) 내에 존재하지 않는다. 최소제곱법은 $ $를 이 열공간 위로 수직 투영하여, | ||
| + | |||
| + | 선형 최소제곱법을 통해 얻은 추정량은 통계적으로도 우수한 | ||
| + | )). 또한 오차항이 [[정규 분포]]를 따른다고 가정할 경우, 이 추정량은 [[최대 가능도 추정법]](Maximum Likelihood Estimation, MLE)으로 구한 결과와 동일해진다. 이러한 성질들은 선형 최소제곱법이 [[통계학]] 및 [[계량 경제학]] 등 다양한 학문 분야에서 데이터 분석의 근간이 되는 핵심 도구로 자리 잡게 된 이론적 토대가 된다. | ||
| ==== 정규 방정식 ==== | ==== 정규 방정식 ==== | ||
| - | 최적해를 구하기 위해 유도되는 선형 연립 방정식인 정규 방정식의 도출 과정을 | + | 정규 방정식(Normal Equation)은 [[선형 |
| + | |||
| + | $$ \mathbf{y} = X\boldsymbol{\beta} + \boldsymbol{\epsilon} $$ | ||
| + | |||
| + | 여기서 $\mathbf{y}$는 $n \times 1$ 크기의 [[종속 변수]] 벡터이며, | ||
| + | |||
| + | [[목적 함수]]로서의 [[잔차 제곱합]](Sum of Squared Residuals, SSR) $S(\boldsymbol{\beta})$는 다음과 같이 벡터의 내적 형식으로 정의된다. | ||
| + | |||
| + | $$ S(\boldsymbol{\beta}) = \|\mathbf{y} - X\boldsymbol{\beta}\|^2 = (\mathbf{y} - X\boldsymbol{\beta})^T (\mathbf{y} - X\boldsymbol{\beta}) $$ | ||
| + | |||
| + | 이 식을 행렬 연산 법칙에 따라 전개하면 다음과 같은 스칼라 함수를 얻는다. | ||
| + | |||
| + | $$ S(\boldsymbol{\beta}) = \mathbf{y}^T \mathbf{y} - \mathbf{y}^T X\boldsymbol{\beta} - \boldsymbol{\beta}^T X^T \mathbf{y} + \boldsymbol{\beta}^T X^T X \boldsymbol{\beta} $$ | ||
| + | |||
| + | 이때 $\mathbf{y}^T X\boldsymbol{\beta}$는 스칼라 값이므로 그 [[전치 행렬]]인 $\boldsymbol{\beta}^T X^T \mathbf{y}$와 동일한 값을 가진다. 이를 바탕으로 식을 정리하면 다음과 같다. | ||
| + | |||
| + | $$ S(\boldsymbol{\beta}) = \mathbf{y}^T \mathbf{y} - 2\boldsymbol{\beta}^T X^T \mathbf{y} + \boldsymbol{\beta}^T X^T X \boldsymbol{\beta} $$ | ||
| + | |||
| + | 함수 $S(\boldsymbol{\beta})$가 최솟값을 갖기 위한 필요조건은 매개변수 벡터 $\boldsymbol{\beta}$에 대한 [[편미분]] 값이 0이 되는 것이다. [[행렬 미분]]의 규칙을 적용하여 $S(\boldsymbol{\beta})$를 $\boldsymbol{\beta}$로 미분하면 다음과 같은 도함수를 얻는다. | ||
| + | |||
| + | $$ \frac{\partial S}{\partial \boldsymbol{\beta}} = -2X^T \mathbf{y} + 2X^T X \boldsymbol{\beta} = 0 $$ | ||
| + | |||
| + | 위 식을 만족하는 $\boldsymbol{\beta}$의 해를 $\hat{\boldsymbol{\beta}}$라고 할 때, 이를 정리하면 최종적으로 정규 방정식이 도출된다. | ||
| + | |||
| + | $$ X^T X \hat{\boldsymbol{\beta}} = X^T \mathbf{y} $$ | ||
| + | |||
| + | 정규 방정식에서 $X^T X$는 [[그람 행렬]](Gram matrix)의 일종으로, | ||
| + | |||
| + | $$ \hat{\boldsymbol{\beta}} = (X^T X)^{-1} X^T \mathbf{y} $$ | ||
| + | |||
| + | 여기서 $(X^T X)^{-1} X^T$는 $X$의 [[무어-펜로즈 유사역행렬]](Moore-Penrose pseudoinverse)이라 불리며, 정방 행렬이 아닌 행렬에 대해 역행렬과 유사한 역할을 수행한다. | ||
| + | |||
| + | 정규 방정식의 도출 과정은 [[선형대수학]]의 기하학적 관점에서도 해석될 수 있다. 관측 벡터 $\mathbf{y}$를 $X$의 열 벡터들이 생성하는 하위 부분 공간인 [[열 공간]](Column space)으로 [[직교 투영]]했을 때, 잔차 벡터 $\mathbf{r} = \mathbf{y} - X\hat{\boldsymbol{\beta}}$는 해당 열 공간과 수직을 이루어야 한다. 즉, $X^T (\mathbf{y} - X\hat{\boldsymbol{\beta}}) = \mathbf{0}$이라는 [[직교성]] 조건이 성립해야 하며, 이 기하학적 조건은 대수적으로 유도한 정규 방정식과 정확히 일치한다. | ||
| + | |||
| + | 정규 방정식은 최소제곱 문제를 해결하는 가장 직관적인 방법이지만, | ||
| === 행렬 대수를 이용한 해법 === | === 행렬 대수를 이용한 해법 === | ||
| - | 관측 행렬과 설계 행렬을 이용해 최적 매개변수 벡터를 산출하는 행렬 | + | 선형 최소제곱법의 해를 도출하는 과정은 [[선형대수학]](Linear Algebra)의 행렬 연산을 통해 체계적으로 정식화된다. $ n $개의 |
| + | |||
| + | $$ \mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\epsilon} $$ | ||
| + | |||
| + | 여기서 $ $는 $ n $ 크기의 [[관측 벡터]](observation vector)이며, | ||
| + | |||
| + | 최소제곱법의 목적은 [[잔차]](residual)의 제곱합을 최소화하는 최적의 매개변수 벡터 $ $를 찾는 것이다. 잔차 벡터 $ $는 실제 관측값과 모델에 의한 예측값의 차이로 정의되며, | ||
| + | |||
| + | $$ \mathbf{r} = \mathbf{y} - \mathbf{X}\hat{\boldsymbol{\beta}} $$ | ||
| + | |||
| + | 최소화의 대상이 되는 [[목적 함수]](objective function) $ S() $는 잔차 벡터의 내적, 즉 [[잔차 제곱합]](Sum of Squared Residuals, SSR)으로 정의된다. | ||
| + | |||
| + | $$ S(\boldsymbol{\beta}) = \mathbf{r}^T \mathbf{r} = (\mathbf{y} - \mathbf{X}\boldsymbol{\beta})^T (\mathbf{y} - \mathbf{X}\boldsymbol{\beta}) $$ | ||
| + | |||
| + | 위 식을 [[전치 행렬]](transpose matrix)의 성질을 이용하여 전개하면 다음과 같은 형태가 된다. | ||
| + | |||
| + | $$ S(\boldsymbol{\beta}) = \mathbf{y}^T \mathbf{y} - \mathbf{y}^T \mathbf{X}\boldsymbol{\beta} - \boldsymbol{\beta}^T \mathbf{X}^T \mathbf{y} + \boldsymbol{\beta}^T \mathbf{X}^T \mathbf{X} \boldsymbol{\beta} $$ | ||
| + | |||
| + | 이때 $ ^T $는 스칼라 값이므로 그 전치인 $ ^T ^T $와 동일하다. 따라서 목적 함수는 다음과 같이 정리된다. | ||
| + | |||
| + | $$ S(\boldsymbol{\beta}) = \mathbf{y}^T \mathbf{y} - 2\boldsymbol{\beta}^T \mathbf{X}^T \mathbf{y} + \boldsymbol{\beta}^T \mathbf{X}^T \mathbf{X} \boldsymbol{\beta} $$ | ||
| + | |||
| + | 함수 $ S() $를 최소화하기 위해 매개변수 벡터 $ $에 대해 [[편미분]]을 수행하고, | ||
| + | |||
| + | $$ \frac{\partial S}{\partial \boldsymbol{\beta}} = -2\mathbf{X}^T \mathbf{y} + 2\mathbf{X}^T \mathbf{X} \boldsymbol{\beta} = \mathbf{0} $$ | ||
| + | |||
| + | 이를 정리하면 선형 최소제곱법의 핵심인 [[정규 방정식]](Normal Equation)이 도출된다. | ||
| + | |||
| + | $$ \mathbf{X}^T \mathbf{X} \hat{\boldsymbol{\beta}} = \mathbf{X}^T \mathbf{y} $$ | ||
| + | |||
| + | 만약 설계 행렬 $ $가 [[열 풀 랭크]](full column rank)를 가져 $ ^T $의 [[역행렬]](inverse matrix)이 존재한다면, | ||
| + | |||
| + | $$ \hat{\boldsymbol{\beta}} = (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \mathbf{y} $$ | ||
| + | |||
| + | 이 식에서 $ (^T )^{-1} ^T $ 부분은 [[무어-펜로즈 유사역행렬]](Moore-Penrose pseudoinverse)의 특수한 형태로 간주될 수 있다. 또한, 이를 통해 계산된 예측값 $ = $는 관측 벡터 $ $를 설계 행렬의 [[열 공간]](column space)으로 투영한 것과 같으며, 이때 작용하는 행렬 | ||
| + | |||
| + | 행렬 대수를 이용한 이러한 해법은 변수의 개수가 많은 복잡한 모델에서도 일관된 계산 절차를 제공하며, | ||
| ==== 단순 선형 회귀 ==== | ==== 단순 선형 회귀 ==== | ||
| - | 하나의 독립 변수와 하나의 종속 변수 사이의 관계를 최소제곱법으로 추정하는 기초 모델을 다룬다. | + | [[단순 선형 회귀]](Simple Linear Regression)는 |
| + | |||
| + | 단순 선형 회귀 모델은 일반적으로 다음과 같은 선형 방정식의 형태로 정의된다. | ||
| + | |||
| + | $$ y_i = \beta_0 + \beta_1 x_i + \epsilon_i, \quad i = 1, 2, \dots, n $$ | ||
| + | |||
| + | 위 식에서 $ y_i $는 종속 변수의 관측값, $ x_i $는 독립 변수의 관측값이며, | ||
| + | |||
| + | 최적의 매개변수를 찾기 위해 최소화해야 할 [[목적 함수]](objective function)는 잔차 제곱합(Residual Sum of Squares, RSS)으로 정의된다. 잔차 $ e_i $는 실제 관측값 $ y_i $와 모델에 의한 예측값 $ _i = _0 + _1 x_i $ 사이의 차이이며, | ||
| + | |||
| + | $$ S(\hat{\beta}_0, | ||
| + | |||
| + | 함수 $ S $를 최소화하는 $ _0 $와 $ _1 $을 찾기 위해 각 매개변수에 대하여 [[편미분]](partial differentiation)을 수행한다. 최솟값에서는 각 편미분 계수가 0이 되어야 한다는 조건을 이용하면 다음과 같은 두 개의 연립 방정식을 얻을 수 있으며, 이를 [[정규 방정식]](normal equations)이라 한다. | ||
| + | |||
| + | $$ \frac{\partial S}{\partial \hat{\beta}_0} = -2 \sum_{i=1}^{n} (y_i - \hat{\beta}_0 - \hat{\beta}_1 x_i) = 0 $$ $$ \frac{\partial S}{\partial \hat{\beta}_1} = -2 \sum_{i=1}^{n} x_i (y_i - \hat{\beta}_0 - \hat{\beta}_1 x_i) = 0 $$ | ||
| + | |||
| + | 첫 번째 식을 정리하면 $ y_i = n_0 + _1 x_i $가 되며, 이를 양변으로 $ n $으로 나누면 $ _0 = {y} - _1 {x} $라는 관계식을 얻는다. 여기서 $ {x} $와 $ {y} $는 각각 독립 변수와 종속 변수의 [[산술 평균]](arithmetic mean)이다. 이 결과는 최소제곱법에 의한 회귀선이 반드시 데이터의 평균점 $ ({x}, {y}) $를 통과함을 시사한다. 두 번째 식에 $ _0 $의 관계식을 대입하여 기울기 $ _1 $에 대해 정리하면 다음과 같은 최종적인 추정식을 도출할 수 있다. | ||
| + | |||
| + | $$ \hat{\beta}_1 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^{n} (x_i - \bar{x})^2} $$ | ||
| + | |||
| + | 이 식의 분자는 $ x $와 $ y $의 [[공분산]](covariance)에 비례하고, | ||
| + | |||
| + | 단순 선형 회귀에서의 최소제곱 추정량은 [[가우스 마르코프 정리]](Gauss-Markov theorem)에 의해 일정한 가정 하에서 최선 선형 불편 추정량(Best Linear Unbiased Estimator, BLUE)임이 보장된다. 이는 모든 선형 [[불편 추정량]](unbiased estimator) 중에서 최소제곱법으로 구한 추정량이 가장 작은 분산을 가짐을 의미하며, | ||
| ==== 다중 선형 회귀 ==== | ==== 다중 선형 회귀 ==== | ||
| - | 여러 개의 독립 변수가 존재하는 상황에서 매개변수를 | + | 다중 선형 회귀(Multiple Linear Regression)는 종속 변수(dependent variable)와 두 개 이상의 독립 변수(independent variable) 사이의 선형적 관계를 정량적으로 분석하기 위한 수치적 방법이다. [[단순 선형 회귀]]가 하나의 독립 변수만을 다루는 것과 달리, 다중 선형 회귀는 현실 세계의 복잡한 현상을 설명하기 위해 |
| + | |||
| + | $ n $개의 관측값과 $ p $개의 독립 변수가 존재할 때, $ i $번째 관측치에 대한 다중 선형 회귀 모델은 다음과 같이 정의된다. | ||
| + | |||
| + | $$ y_i = \beta_0 + \beta_1 x_{i1} + \beta_2 x_{i2} + \dots + \beta_p x_{ip} + \epsilon_i, \quad i = 1, 2, \dots, n $$ | ||
| + | |||
| + | 여기서 $ y_i $는 종속 변수의 관측값이며, | ||
| + | |||
| + | 이를 [[행렬 대수]](Matrix algebra)로 표현하면 전체 데이터 구조를 간결하게 기술할 수 있다. 관측 벡터 $ $, 설계 행렬(design matrix) $ $, 계수 벡터 $ $, 오차 벡터 $ $을 다음과 같이 정의한다. | ||
| + | |||
| + | $$ \mathbf{y} = \begin{bmatrix} y_1 \\ y_2 \\ \vdots \\ y_n \end{bmatrix}, | ||
| + | |||
| + | 이 정의를 바탕으로 다중 선형 회귀 모델은 $ = + $이라는 간결한 행렬 방정식으로 환원된다. 여기서 설계 행렬의 첫 번째 열은 절편항을 포함하기 위해 모두 1로 설정된다. | ||
| + | |||
| + | 최소제곱법의 목적은 실제 관측값 $ $와 모델에 의한 예측값 $ = $ 사이의 차이인 [[잔차]](residual)의 제곱합을 최소화하는 $ $를 찾는 것이다. 목적 함수인 잔차 제곱합(Residual Sum of Squares, RSS) $ S() $는 다음과 같이 정의된다. | ||
| + | |||
| + | $$ S(\boldsymbol{\beta}) = \sum_{i=1}^{n} (y_i - \mathbf{x}_i^T \boldsymbol{\beta})^2 = (\mathbf{y} - \mathbf{X}\boldsymbol{\beta})^T (\mathbf{y} - \mathbf{X}\boldsymbol{\beta}) $$ | ||
| + | |||
| + | 이 함수를 최소화하기 위해 $ $에 대해 [[편미분]]을 수행하여 그 결과가 0이 되는 지점을 찾으면, 다음과 같은 [[정규 방정식]](Normal Equation)을 얻게 된다. | ||
| + | |||
| + | $$ \mathbf{X}^T \mathbf{X} \hat{\boldsymbol{\beta}} = \mathbf{X}^T \mathbf{y} $$ | ||
| + | |||
| + | 만약 설계 행렬 $ $의 열들이 서로 [[선형 독립]](Linearly independent)하여 $ ^T $가 [[가역 행렬]](Invertible matrix)이라면, | ||
| + | |||
| + | $$ \hat{\boldsymbol{\beta}} = (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \mathbf{y} $$ | ||
| + | |||
| + | 기하학적 관점에서 다중 선형 회귀는 관측 벡터 $ $를 설계 행렬 $ $의 열벡터들이 생성하는 [[벡터 공간]](Vector space)인 [[열 공간]](Column space)으로 [[직교 투영]](Orthogonal projection)하는 문제로 해석된다. 이때 추정된 값 $ = $는 해당 부분 공간 내에서 $ $와 [[유클리드 거리]]가 가장 가까운 점이 | ||
| + | |||
| + | 다중 선형 회귀에서 각 계수 $ _j $는 다른 | ||
| + | |||
| + | 그러나 독립 변수들 사이에 강한 선형 상관관계가 존재하는 경우 [[다중 공선성]](Multicollinearity) 문제가 발생할 수 있다. 다중 공선성이 심각해지면 $ ^T $ 행렬이 [[특이 행렬]](Singular matrix)에 가까워져 역행렬 계산의 수치적 불안정성이 증대되고, | ||
| ===== 비선형 최소제곱법 ===== | ===== 비선형 최소제곱법 ===== | ||
| - | 매개변수와 종속 변수의 관계가 비선형일 때 사용하는 수치적 최적화 기법을 다룬다. | + | 비선형 최소제곱법(Non-linear Least Squares, NLS)은 모델 함수가 [[매개변수]](parameter)에 대하여 비선형적인 구조를 가질 때, 관측값과 모델 예측값 사이의 [[잔차]](residual) 제곱합을 최소화하는 매개변수를 찾는 수치적 최적화 기법이다. [[선형 최소제곱법]]에서는 [[정규 방정식]]을 통해 단 한 번의 행렬 연산으로 유일한 해를 도출할 수 있는 것과 달리, 비선형 모델에서는 |
| + | |||
| + | 비선형 | ||
| + | |||
| + | 비선형 최소제곱 문제를 해결하는 가장 기본적인 알고리즘은 [[가우스 뉴턴 방법]](Gauss-Newton method)이다. 이 방법은 목적 함수의 [[헤세 행렬]](Hessian matrix)을 야코비 행렬의 곱으로 근사하여 계산 복잡도를 줄이면서도 빠른 수렴 속도를 도모한다. 그러나 가우스 뉴턴 방법은 초기값이 실제 최적해에서 멀리 떨어져 있거나 야코비 행렬이 [[특이 행렬]]에 가까울 경우 수렴이 보장되지 않는다는 단점이 있다. 이러한 한계를 극복하기 위해 제안된 [[레벤버그 마쿼트 알고리즘]](Levenberg-Marquardt algorithm)은 가우스 뉴턴 방법과 [[경사 하강법]]을 결합한 형태를 취한다. 이 알고리즘은 감쇠 인자를 도입하여 초기 단계에서는 안정적인 하강을 유도하고, | ||
| + | )). | ||
| + | |||
| + | 비선형 | ||
| + | )). 이러한 수치적, 통계적 특성으로 인해 비선형 최소제곱법은 물리적 모델링, 생물학적 반응 속도 분석, 위성 항법 시스템의 위치 결정 등 정밀한 매개변수 추정이 요구되는 다양한 학문 분야에서 핵심적인 도구로 활용되고 있다. | ||
| ==== 반복적 최적화 알고리즘 ==== | ==== 반복적 최적화 알고리즘 ==== | ||
| - | 초기값을 설정하고 점진적으로 최적해에 접근하는 수치 해석적 방법의 필요성을 설명한다. | + | 비선형 최소제곱법(Non-linear Least Squares)에서 모델 함수가 매개변수에 대해 비선형적일 경우, [[선형 최소제곱법]]과 달리 [[정규 방정식]]을 통해 단 한 번의 행렬 연산으로 최적해를 도출하는 것이 불가능하다. 이는 [[목적 함수]](Objective function)의 |
| + | |||
| + | 반복적 최적화의 핵심은 현재 단계의 매개변수 값인 $ ^{(k)} $에서 잔차의 제곱합을 효과적으로 줄일 수 있는 수정 방향과 크기를 결정하여 다음 단계의 추정값 $ ^{(k+1)} $을 갱신하는 데 있다. 일반적인 갱신 식은 다음과 같이 정의된다. | ||
| + | |||
| + | $$ \boldsymbol{\beta}^{(k+1)} = \boldsymbol{\beta}^{(k)} + \Delta \boldsymbol{\beta} $$ | ||
| + | |||
| + | 여기서 $ $는 증분 벡터(increment vector)를 의미한다. 이 증분을 결정하기 위해 대부분의 알고리즘은 비선형 함수를 현재 지점 근방에서 [[테일러 급수]](Taylor series)를 이용하여 선형적으로 근사하는 방식을 취한다. 모델 함수 $ f(x, ) $를 매개변수 $ $에 대해 1차 근사하면, | ||
| + | |||
| + | 반복적 접근 방식에서 가장 유의해야 할 요소는 초기값(Initial guess)의 설정이다. 비선형 목적 함수는 선형 문제와 달리 다수의 [[국소 최적해]](Local optimum)를 가질 수 있는 비볼록(non-convex)한 특성을 띠는 경우가 많다. 만약 초기값이 실제 최적해에서 멀리 떨어져 설정될 경우, 알고리즘은 전체 영역에서의 최솟값인 [[전역 최적해]](Global optimum)가 아닌 인접한 국소 최솟값으로 [[수렴]](Convergence)하거나, | ||
| + | |||
| + | 알고리즘의 반복 수행은 사전에 정의된 정지 규칙(Stopping criteria)을 만족할 때까지 계속된다. 일반적으로 매개변수의 변화량이 특정 임계치보다 작아지는 수렴 조건에 도달하거나, | ||
| + | )) | ||
| === 가우스 뉴턴 방법 === | === 가우스 뉴턴 방법 === | ||
| - | 테일러 전개를 통해 | + | 가우스 뉴턴 방법(Gauss-Newton method)은 비선형 최소제곱 문제를 해결하기 위해 고안된 가장 대표적인 반복적 최적화 알고리즘이다. [[선형 최소제곱법]]과 달리, 모델 함수가 매개변수에 대해 비선형적일 경우 최적해를 단번에 도출할 수 있는 [[정규 방정식]]이 존재하지 않는다. 따라서 가우스 뉴턴 방법은 매개변수의 현재 추정치 근방에서 비선형 함수를 [[테일러 전개]](Taylor expansion)를 통해 선형 |
| + | |||
| + | 가우스 뉴턴 방법의 핵심은 모델 | ||
| + | |||
| + | $$ f(x_i, \boldsymbol{\beta}^{(k)} + \Delta \boldsymbol{\beta}) \approx f(x_i, \boldsymbol{\beta}^{(k)}) + \sum_{j=1}^{p} \frac{\partial f(x_i, \boldsymbol{\beta}^{(k)})}{\partial \beta_j} \Delta \beta_j $$ | ||
| + | |||
| + | 위 식에서 각 매개변수에 대한 모델 함수의 편미분 계수들로 구성된 행렬을 [[야코비 행렬]](Jacobian matrix)이라 하며, 이를 $ $로 표기한다. 야코비 행렬의 각 성분은 $ J_{ij} = $로 정의된다. 이를 행렬 형태로 나타내면 잔차 벡터 $ (^{(k)} + ) $는 다음과 같이 근사된다. | ||
| + | |||
| + | $$ \mathbf{r}(\boldsymbol{\beta}^{(k)} + \Delta \boldsymbol{\beta}) \approx \mathbf{r}(\boldsymbol{\beta}^{(k)}) - \mathbf{J} \Delta \boldsymbol{\beta} $$ | ||
| + | |||
| + | 이제 비선형 최소제곱 문제는 $ $에 대한 선형 최소제곱 문제로 치환된다. 이 선형화된 체계에서 잔차 제곱합을 최소화하는 증분 $ $를 찾기 위해 [[정규 방정식]]의 형태를 | ||
| + | |||
| + | $$ (\mathbf{J}^T \mathbf{J}) \Delta \boldsymbol{\beta} = \mathbf{J}^T \mathbf{r}(\boldsymbol{\beta}^{(k)}) $$ | ||
| + | |||
| + | 이 방정식을 풀어 얻은 $ $를 사용하여 매개변수를 $ ^{(k+1)} = ^{(k)} + $와 같이 갱신한다. 이 과정을 잔차의 변화량이 충분히 작아지거나 미리 설정한 수렴 조건에 도달할 때까지 | ||
| + | |||
| + | 가우스 뉴턴 방법은 일반적인 [[뉴턴 방법]]과 비교했을 때 중요한 수학적 함의를 갖는다. 뉴턴 방법은 목적 함수의 2차 미분 정보인 [[헤세 행렬]]을 필요로 하지만, 가우스 뉴턴 방법은 목적 함수가 잔차의 제곱합이라는 특수한 구조를 가짐을 이용한다. 목적 함수 $ S() $의 헤세 행렬을 직접 계산하면 야코비 행렬의 곱인 $ 2^T $ 항과 잔차의 2차 미분이 포함된 항의 합으로 나타난다. 가우스 뉴턴 방법은 잔차가 0에 가깝거나 모델의 비선형성이 크지 않다는 가정하에 2차 미분항을 무시하고 $ 2^T $만을 사용하여 헤세 행렬을 근사한다. 이는 복잡한 2차 미분 계산을 생략하면서도 최적점 근처에서 [[뉴턴 방법]]에 준하는 빠른 수렴 속도를 유지할 수 있게 한다. | ||
| + | |||
| + | 그러나 가우스 뉴턴 방법은 몇 가지 한계점을 지닌다. 우선, 초기 추정치 $ ^{(0)} $가 실제 최적해에서 멀리 떨어져 있을 경우, 선형 근사의 오류가 커져 알고리즘이 수렴하지 않고 발산할 위험이 있다. 또한, 야코비 행렬의 열들이 [[선형 독립]](linearly independent)이 아니거나 [[조건수]](condition number)가 매우 큰 경우, $ ^T $의 역행렬을 구하는 과정에서 수치적 불안정성이 발생한다. 이러한 수렴 안정성 문제를 해결하기 위해 증분 $ $에 일정한 보정 계수를 도입하거나, | ||
| === 레벤버그 마쿼트 알고리즘 === | === 레벤버그 마쿼트 알고리즘 === | ||
| - | 가우스 뉴턴 방법과 경사 하강법을 결합하여 수렴의 안정성을 | + | [[비선형 최소제곱법]]의 반복적 해법 중 하나인 [[가우스 뉴턴 방법]]은 국소 최적해 근처에서 매우 빠른 수렴 속도를 보이지만, |
| + | |||
| + | 레벤버그 마쿼트 알고리즘은 케네스 레벤버그(Kenneth Levenberg)가 1944년에 처음 제안하고, | ||
| + | |||
| + | $$ (\mathbf{J}^\top \mathbf{J} + \lambda \mathbf{I}) \boldsymbol{\delta} = \mathbf{J}^\top \mathbf{r} $$ | ||
| + | |||
| + | 여기서 $ $는 [[단위 행렬]](Identity matrix)이다. 댐핑 인자 $ $는 알고리즘의 거동을 제어하는 핵심적인 역할을 수행한다. 만약 $ $의 값이 매우 크다면, 좌변의 항 중 $ $가 지배적으로 작용하여 업데이트 방향은 경사 하강법의 방향인 $ ^ $에 가까워진다. 이는 현재 지점에서 목적 함수가 감소하는 안전한 방향으로 이동하게 함으로써 초기 추정값이 부정확하거나 모델의 비선형성이 강할 때 알고리즘의 안정성을 보장한다. 반대로 $ $가 0에 가까워지면, | ||
| + | |||
| + | 도널드 마쿼트는 단순히 단위 행렬을 사용하는 대신, 야코비 행렬의 정보를 반영한 대각 행렬을 사용할 것을 제안하며 알고리즘을 개선하였다. 즉, $ (^ + (^)) = ^ $의 형태를 취함으로써, | ||
| + | |||
| + | 결과적으로 레벤버그 마쿼트 | ||
| ===== 통계적 성질과 타당성 ===== | ===== 통계적 성질과 타당성 ===== | ||
| - | 최소제곱법을 통해 | + | 최소제곱법(Method of Least Squares)을 통해 |
| + | |||
| + | 최소제곱 추정량의 가장 기초적인 | ||
| + | |||
| + | 또한, 최소제곱법은 표본의 크기가 무한히 커짐에 따라 추정량이 실제 모수에 확률적으로 수렴하는 [[일치성]](Consistency)을 갖는다. 이는 [[대수의 법칙]](Law of Large Numbers)에 기반한 성질로, 실무적으로 대규모 데이터를 다룰 때 최소제곱법이 신뢰할 수 있는 결과를 산출함을 정당화한다. 일치성이 성립하기 위해서는 독립 변수들 사이에 완전한 선형 관계가 없는 [[비다중공선성]] 가정이 필수적이며, | ||
| + | |||
| + | 최소제곱법의 통계적 효율성은 오차항의 [[등분산성]](Homoscedasticity)과 무상관성에 크게 의존한다. 만약 관측치마다 오차의 분산이 다르거나 오차항 간에 상관관계가 존재하는 경우, OLS 추정량은 여전히 불편성을 유지할 수 있으나 더 이상 분산이 최소인 ’최선’의 상태를 유지하지 못하게 된다. 이러한 상황에서는 [[가중 최소제곱법]](Weighted Least Squares, WLS)이나 [[일반화 최소제곱법]](Generalized Least Squares, GLS)을 적용하여 통계적 타당성을 보완해야 한다. 현대 통계학에서는 가우스-마르코프 정리의 가정을 완화하더라도 일정한 | ||
| + | )). | ||
| + | |||
| + | 마지막으로, | ||
| ==== 가우스 마르코프 정리 ==== | ==== 가우스 마르코프 정리 ==== | ||
| - | 일정한 가정 하에서 최소제곱 추정량이 최선 선형 불편 추정량이 | + | [[가우스-마르코프 정리]](Gauss-Markov Theorem)는 [[선형 회귀 모델]]에서 [[최소제곱법]]을 통해 도출된 추정량이 |
| + | |||
| + | 가우스-마르코프 정리가 성립하기 위해서는 [[고전적 선형 회귀 모델]]의 가정이 충족되어야 한다. 먼저 모델은 매개변수에 대하여 선형적이어야 하며, 관측 데이터로부터 구성된 [[설계 행렬]](Design Matrix) $ $는 각 열이 독립인 [[풀 랭크]](Full Rank) 상태여야 한다. 핵심적인 가정은 오차항 $ $에 집중된다. 오차항의 기댓값은 모든 관측치에서 0이어야 하며($ E[] = $), 모든 오차항의 분산이 동일하다는 [[등분산성]](Homoscedasticity)과 오차항들 사이에 상관관계가 없다는 [[비상관성]](Non-autocorrelation) 가정이 필요하다. 이를 행렬 형태로 종합하면 오차항의 [[공분산 행렬]]은 $ Var() = ^2 $가 된다. | ||
| + | |||
| + | 최소제곱 추정량 $ = (^)^{-1} ^ $가 BLUE임을 증명하기 위해, 우선 이 추정량이 종속 변수 $ $의 선형 결합임을 확인한다. $ = (^)^{-1} ^$라 정의하면 $ = $가 되어 선형성을 만족한다. 또한, $ E[] = E[( + )] = + E[] = $가 성립하므로, | ||
| + | |||
| + | 이제 임의의 다른 선형 불편 추정량 $ = $를 상정한다. 여기서 $ = + $로 표현할 수 있으며, $ $가 불편성을 유지하기 위해서는 $ E[] = ( + ) = $를 만족해야 하므로 $ = $이라는 조건이 도출된다. 이때 $ $의 분산은 다음과 같이 전개된다. | ||
| + | |||
| + | $$ Var(\tilde{\boldsymbol{\beta}}) = Var((\mathbf{W} + \mathbf{D})\mathbf{y}) = (\mathbf{W} + \mathbf{D})Var(\mathbf{y})(\mathbf{W} + \mathbf{D})^\top $$ $$ Var(\tilde{\boldsymbol{\beta}}) = \sigma^2 (\mathbf{W}\mathbf{W}^\top + \mathbf{D}\mathbf{D}^\top + \mathbf{W}\mathbf{D}^\top + \mathbf{D}\mathbf{W}^\top ) $$ | ||
| + | |||
| + | 위 식에서 $ ^= (^)^{-1} ^^= (^)^{-1} ()^= $이므로, 최종적으로 다음과 같은 관계가 성립한다. | ||
| + | |||
| + | $$ Var(\tilde{\boldsymbol{\beta}}) = Var(\hat{\boldsymbol{\beta}}) + \sigma^2 \mathbf{D}\mathbf{D}^\top $$ | ||
| + | |||
| + | $ ^$는 [[양의 준정부호]](Positive Semi-definite) 행렬이므로, | ||
| + | |||
| + | 가우스-마르코프 정리의 가장 중요한 함의는 오차항이 반드시 [[정규 분포]]를 따를 필요가 없다는 점에 있다. 단지 1차 및 2차 [[모멘트]](Moment)에 관한 기초적인 가정만으로도 최소제곱법의 최적성을 보장할 수 있다는 사실은 이 기법이 다양한 실무 분야에서 보편적으로 사용될 수 있는 강력한 이론적 근거를 제공한다. 다만, 등분산성이나 비상관성 가정이 위배되는 환경에서는 [[일반화 최소제곱법]](Generalized Least Squares)과 같은 대안적 접근이 요구되며, | ||
| ==== 잔차 분석과 적합도 ==== | ==== 잔차 분석과 적합도 ==== | ||
| - | 결정 | + | [[최소제곱법]]을 통해 도출된 [[회귀 |
| + | |||
| + | 모델의 전체적인 적합도를 | ||
| + | |||
| + | $$ TSS = \sum_{i=1}^{n} (y_i - \bar{y})^2, \quad RSS = \sum_{i=1}^{n} (\hat{y}_i - \bar{y})^2, \quad SSE = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 $$ | ||
| + | |||
| + | 여기서 $ y_i $는 실제 관측값, $ _i $는 모델에 의한 예측값, $ {y} $는 관측값의 평균이다. 결정 계수 $ R^2 $는 전체 변동 대비 설명된 변동의 비율로 계산되며, | ||
| + | |||
| + | $$ R^2 = \frac{RSS}{TSS} = 1 - \frac{SSE}{TSS} $$ | ||
| + | |||
| + | $ R^2 $가 1에 가까울수록 모델이 데이터를 잘 설명하고 있음을 의미한다. 그러나 [[다중 회귀 분석]](Multiple Regression Analysis)에서는 모델에 독립 변수를 추가할수록 설명력의 유의성과 관계없이 $ R^2 $ 값이 기계적으로 상승하는 경향이 있다. 이러한 왜곡을 방지하기 위해 [[자유도]](Degrees of Freedom)를 고려하여 보정한 [[수정된 결정 계수]](Adjusted $ R^2 $)를 사용한다. 수정된 결정 계수는 불필요한 변수의 추가에 대해 벌점을 부여함으로써 모델의 효율성을 보다 객관적으로 평가할 수 있게 한다. | ||
| + | |||
| + | 적합도 지표가 모델의 양적인 성능을 나타낸다면, | ||
| + | |||
| + | 가장 보편적인 진단 방법은 잔차 산점도(Residual Plot)를 활용하는 것이다. 가로축에 예측값이나 독립 변수를, 세로축에 잔차를 배치했을 때 잔차가 특정 패턴 없이 0을 중심으로 무작위하게 흩어져 있어야 모델의 [[선형성]](Linearity)과 등분산성 가정이 유지되는 것으로 본다. 만약 잔차가 깔때기 모양으로 퍼진다면 이는 오차의 분산이 일정하지 않은 등분산성 위배를 시사하며, | ||
| + | |||
| + | 또한, 오차항의 정규성 가정은 [[Q-Q 플롯]](Quantile-Quantile Plot)을 통해 시각적으로 검토할 수 있다. 관측된 잔차의 분위수와 정규 분포의 이론적 분위수를 대응시켰을 때 데이터 포인트들이 직선상에 위치한다면 정규성 가정이 충족된 것으로 간주한다. 잔차 분석을 통해 발견된 이상 징후는 변수 변환이나 [[가중 최소제곱법]]의 도입 등 모델 수정의 근거가 되며, 최종적으로 모델의 추론 결과에 대한 학술적 신뢰도를 결정짓는 핵심적인 근거가 된다((4.1 - Residuals | STAT 462, https:// | ||
| + | ))((1.5 - The Coefficient of Determination, | ||
| + | )). | ||
| ==== 이상치와 강건성 ==== | ==== 이상치와 강건성 ==== | ||
| - | 최소제곱법이 이상치에 | + | [[최소제곱법]](Method of Least Squares)은 오차항이 [[정규분포]](Normal distribution)를 따르고 독립적이며 동일한 분산을 가진다는 가정하에서 매우 효율적인 추정치를 제공한다. 그러나 이러한 가정은 실제 관측 데이터에서 빈번하게 위배되며, |
| + | |||
| + | 최소제곱법이 이상치에 취약한 근본적인 원인은 [[목적 함수]](Objective function)의 구조에 있다. 이 기법은 [[잔차]](Residual)의 제곱합을 최소화하는 것을 목표로 하므로, 특정 데이터 포인트의 잔차가 클수록 그 제곱값은 기하급수적으로 커지게 된다. 수학적으로 $ i $번째 관측값 $ y_i $에 대한 잔차를 $ r_i = y_i - _i $라고 할 때, 전체 손실은 $ r_i^2 $으로 정의된다. 만약 특정 지점에서 매우 큰 잔차가 발생하면, | ||
| + | |||
| + | 이러한 수치적 민감도를 정량화하기 위해 [[강건 통계학]](Robust statistics)에서는 [[영향력 함수]](Influence function)와 [[붕괴점]](Breakdown point)이라는 개념을 사용한다. 영향력 함수는 특정 위치에 관측값이 추가되었을 때 추정량이 얼마나 변하는지를 나타내며, | ||
| + | |||
| + | 이상치의 악영향을 억제하고 통계적 안정성을 확보하기 위해 고안된 성질이 [[강건성]](Robustness)이다. 강건한 추정 방법론은 데이터의 일부가 오염되거나 기저 분포의 가정이 어긋나더라도 추정 성능을 일정 수준 이상으로 유지하는 것을 목표로 한다. 대표적인 대안으로는 [[최소절대편차]](Least Absolute Deviations, LAD)법이 있다. 이는 잔차의 제곱 대신 절댓값의 합을 최소화하는 $ L_1 $ 노름(norm) 기반의 최적화 기법으로, | ||
| + | |||
| + | 더욱 정교한 접근법으로는 [[피터 후버]](Peter Huber)가 제안한 [[M-추정]](M-estimation)이 있다. M-추정은 잔차의 크기에 따라 손실 함수의 형태를 가변적으로 적용한다. 예를 들어, [[후버 손실 함수]](Huber loss function)는 잔차가 일정 임계값 이하일 때는 최소제곱법과 같이 제곱 함수를 적용하여 효율성을 높이고, 임계값을 초과하는 큰 잔차에 대해서는 절댓값 함수를 적용하여 이상치의 가중치를 제한한다. | ||
| + | |||
| + | $$ L_{\delta}(r) = \begin{cases} \frac{1}{2}r^2 & \text{for } |r| \le \delta \\ \delta(|r| - \frac{1}{2}\delta) & \text{for } |r| > \delta \end{cases} $$ | ||
| + | |||
| + | 여기서 $ $는 이상치를 판별하는 조율 매개변수이다. 이외에도 [[지렛대 점]](Leverage point)의 영향을 제어하기 위한 [[S-추정]]이나 [[MM-추정]] 등 다양한 강건 회귀 기법들이 개발되어 실무에 적용되고 있다. 특히 [[반복 재가중 최소제곱법]](Iteratively Reweighted Least Squares, IRLS)은 각 데이터 포인트에 가중치를 부여하고, | ||
| + | )) | ||
| ===== 주요 변형 기법 ===== | ===== 주요 변형 기법 ===== | ||
| - | 기본적인 최소제곱법의 한계를 극복하기 위해 변형된 다양한 기법들을 소개한다. | + | [[최소제곱법]]은 오차항에 대한 엄격한 가정을 전제로 성립하는 |
| + | |||
| + | [[가중 최소제곱법]](Weighted Least Squares, WLS)은 관측값마다 오차의 분산이 서로 다를 때 활용되는 대표적인 기법이다. 각 데이터 포인트의 신뢰도에 따라 서로 다른 가중치를 부여함으로써, | ||
| + | |||
| + | [[일반화 최소제곱법]](Generalized Least Squares, GLS)은 가중 최소제곱법을 더욱 일반화한 형태이다. 오차항들 사이에 상관관계가 존재하거나 분산이 일정하지 않은 경우, 오차항의 [[공분산 행렬]](covariance matrix)인 $ $를 고려하여 매개변수를 추정한다. GLS 추정량 $ _{GLS} $는 행렬 대수를 통해 다음과 같이 도출된다. $$ \hat{\beta}_{GLS} = (X^T \Omega^{-1} X)^{-1} X^T \Omega^{-1} y $$ 이 방법은 데이터의 구조적 의존성을 모델 내부에 직접 수용함으로써 오차항의 상관계수가 0이 아니라는 가정을 처리할 수 있게 해준다((Generalized least squares (GLS regression), | ||
| + | )). 만약 공분산 행렬 $ $가 대각 행렬이라면 이는 가중 최소제곱법과 동일한 결과를 낳는다. | ||
| + | |||
| + | 데이터 내에 극단적인 [[이상치]](outlier)가 포함되어 있을 경우, 잔차의 제곱을 최소화하는 특성상 최소제곱법은 해당 이상치에 매우 민감하게 반응하여 모델의 전체적인 성능을 저하시킨다. 이를 해결하기 위해 [[강건 회귀]](Robust Regression) 기법이 사용된다. 대표적인 방법인 M-추정(M-estimation)은 잔차의 제곱 대신 이상치의 영향을 덜 받는 다른 형태의 손실 함수(예: Huber 손실 함수)를 정의하여 최적화를 수행한다. 이는 데이터의 분포가 [[정규 분포]]에서 벗어나거나 꼬리가 두꺼운 분포를 가질 때 모델의 안정성을 보장하는 역할을 한다. | ||
| + | |||
| + | 현대적인 데이터 분석 및 [[기계 학습]] 분야에서는 [[다중공선성]](multicollinearity) 문제를 해결하고 모델의 일반화 성능을 높이기 위해 [[규제화 최소제곱법]](Regularized Least Squares)이 널리 쓰인다. 이는 기존의 잔차 제곱합에 매개변수의 크기에 대한 [[벌점항]](penalty term)을 추가하는 방식이다. [[릿지 회귀]](Ridge Regression)는 매개변수 제곱의 합($ L_2 $ 규제)을 추가하여 계수의 크기를 줄임으로써 모델의 분산을 감소시킨다((Ridge Regularization: | ||
| + | )). 반면 [[라쏘 회귀]](Lasso Regression)는 매개변수 절대값의 합($ L_1 $ 규제)을 추가하며, | ||
| + | )). 이러한 규제화 기법은 [[편향-분산 트레이드오프]](bias-variance tradeoff)를 조절하여 [[과적합]](overfitting)을 방지하는 핵심적인 도구로 기능한다. | ||
| ==== 가중 최소제곱법 ==== | ==== 가중 최소제곱법 ==== | ||
| - | 각 관측값의 신뢰도나 분산이 다를 경우 | + | 가중 최소제곱법(Weighted Least Squares, WLS)은 모델의 [[오차항]](Error term)들이 서로 다른 [[분산]](Variance)을 가지는 [[이분산성]](Heteroscedasticity) 문제를 해결하기 위해 고안된 [[최소제곱법]]의 확장 형태이다. 표준적인 [[선형 최소제곱법]]은 모든 관측값의 오차가 동일한 분산을 가진다는 [[등분산성]](Homoscedasticity)을 가정한다. 그러나 실제 측정 데이터에서는 관측 환경의 변화, 측정 기기의 정밀도 차이, 혹은 데이터 수집 대상의 규모 차이 등으로 인해 |
| + | |||
| + | 가중 최소제곱법의 수학적 원리는 [[잔차]](residual)의 제곱합을 계산할 때 각 항에 가중치(weight)를 곱하여 [[목적 함수]](Objective function)를 재구성하는 것이다. $ n $개의 관측 데이터 $ (x_i, y_i) $에 대하여, 모델 함수를 $ f(x_i, ) $라고 할 때 가중 잔차 제곱합 $ S $는 다음과 같이 | ||
| + | |||
| + | $$ S = \sum_{i=1}^{n} w_i (y_i - f(x_i, \beta))^2 $$ | ||
| + | |||
| + | 여기서 $ w_i $는 $ i $번째 관측값에 할당된 가중치이다. 통계적으로 가장 이상적인 가중치는 각 관측값 오차의 분산 $ _i^2 $의 역수, 즉 $ w_i = 1/_i^2 $로 설정하는 것이다. 이러한 설정을 통해 분산이 작아 신뢰도가 높은 데이터는 목적 함수에서 큰 비중을 차지하게 되고, 반대로 분산이 커서 불확실성이 높은 데이터는 상대적으로 적은 영향을 미치게 된다. 이는 결과적으로 전체 추정량의 분산을 최소화하는 효과를 낳는다. | ||
| + | |||
| + | 이를 행렬 대수(Matrix Algebra)를 이용하여 일반화하면 더욱 체계적인 | ||
| + | |||
| + | $$ S = (\mathbf{y} - \mathbf{X}\boldsymbol{\beta})^T \mathbf{W} (\mathbf{y} - \mathbf{X}\boldsymbol{\beta}) $$ | ||
| + | |||
| + | 위 식을 $ $에 대해 미분하여 최솟값을 갖는 조건을 구하면, 가중 최소제곱법의 [[정규 | ||
| + | |||
| + | $$ \hat{\boldsymbol{\beta}}_{WLS} = (\mathbf{X}^T \mathbf{W} \mathbf{X})^{-1} \mathbf{X}^T \mathbf{W} \mathbf{y} $$ | ||
| + | |||
| + | 가중 최소제곱법을 | ||
| ==== 일반화 최소제곱법 ==== | ==== 일반화 최소제곱법 ==== | ||
| - | 오차항들 사이에 상관관계가 | + | 일반화 최소제곱법(Generalized Least Squares, GLS)은 [[선형 회귀 모델]]에서 |
| + | |||
| + | 일반화 최소제곱법의 수학적 정식화를 위해 다음과 같은 선형 모델을 가정한다. $ y = X+ $ 여기서 $ y $는 $ n $ 종속 변수 벡터, $ X $는 $ n k $ 설계 행렬, $ $는 추정하고자 하는 매개변수 | ||
| + | |||
| + | GLS의 핵심 원리는 오차항의 공분산 구조를 반영하여 원 데이터를 변환함으로써, | ||
| + | |||
| + | 이러한 GLS 추정량의 통계적 타당성은 [[에이킨의 정리]](Aitken’s Theorem)에 의해 보장된다. [[알렉산더 에이킨]](Alexander Aitken)이 정립한 이 정리에 따르면, 오차항의 공분산 구조 $ $를 알고 있을 때 GLS 추정량은 모든 선형 불편 추정량 중에서 가장 작은 분산을 가지는 [[최적 선형 불편 추정량]](Best Linear Unbiased Estimator, BLUE)이 된다((Aitken’s Generalization of the Gauss-Markov Theorem 1, https:// | ||
| + | )). 이는 OLS가 이분산성이나 자기상관이 존재하는 상황에서 더 이상 효율적이지 않다는 점을 시사하며, | ||
| + | |||
| + | 실제 학술 연구나 실무적 응용에서는 공분산 행렬 $ $의 구체적인 형태를 사전에 알 수 없는 경우가 많다. 이 경우 데이터로부터 $ $를 먼저 추정한 뒤 이를 GLS 식에 대입하는 [[가능 최소제곱법]](Feasible Generalized Least Squares, FGLS)이 주로 사용된다. GLS는 [[계량경제학]]의 [[시계열 분석]]이나 [[패널 데이터]] 분석에서 오차 구조의 복잡성을 다루는 표준적인 방법론으로 자리 잡고 있으며, 공간 통계학이나 [[측량학]] 등 관측값 간의 지리적·시간적 연관성이 중요한 분야에서 광범위하게 활용된다((Lecture 11: Generalized Least Squares (GLS), https:// | ||
| + | )). | ||
| ==== 편향 회귀와 규제화 ==== | ==== 편향 회귀와 규제화 ==== | ||
| - | 과적합을 | + | [[최소제곱법]]을 통한 추정은 [[가우스-마르코프 정리]]에 따라 일정한 가정하에서 [[최선 선형 불편 추정량]](Best Linear Unbiased Estimator, BLUE)을 제공한다. 그러나 실제 데이터 분석 과정에서는 독립 변수 간의 강한 상관관계로 인한 [[다중공선성]](Multicollinearity) 문제가 발생하거나, |
| + | |||
| + | [[규제화]](Regularization)는 이러한 편향 회귀를 구현하는 핵심적인 수치적 수단으로, | ||
| + | |||
| + | $$ J(\beta) = \sum_{i=1}^{n} (y_i - \mathbf{x}_i^T \beta)^2 + \lambda P(\beta) $$ | ||
| + | |||
| + | 여기서 $ $는 규제의 강도를 조절하는 비음수의 [[하이퍼파라미터]](Hyperparameter)이며, | ||
| + | |||
| + | [[릿지 회귀]](Ridge Regression)는 벌점항으로 매개변수의 $ L_2 $ [[노름]](Norm)의 제곱을 사용하는 방식이다. 1970년 [[호얼]](Hoerl)과 [[케나드]](Kennard)에 의해 제안된 이 방법은 계수의 제곱합을 제한함으로써 모든 계수를 균등하게 0에 가깝게 축소시킨다. 릿지 회귀의 추정량은 다음과 같은 [[정규 방정식]]의 변형을 통해 산출된다. | ||
| + | |||
| + | $$ \hat{\beta}_{ridge} = (\mathbf{X}^T \mathbf{X} + \lambda \mathbf{I})^{-1} \mathbf{X}^T \mathbf{y} $$ | ||
| + | |||
| + | 여기서 $ $는 [[단위 행렬]]이다. 릿지 회귀는 특히 설계 행렬 $ $가 [[풀 랭크]](Full rank)가 아니거나 다중공선성으로 인해 $ ^T $의 [[역행렬]] 계산이 불안정할 때, 대각 요소에 $ $를 더함으로써 수치적 안정성을 보장한다. 릿지 회귀는 모든 변수를 모델에 유지하면서도 그 영향력을 감쇄시키는 특징을 지닌다. | ||
| + | |||
| + | 반면 [[라쏘 회귀]](Lasso Regression)는 벌점항으로 매개변수의 $ L_1 $ 노름을 사용하며, | ||
| + | |||
| + | 이러한 규제화 기법들은 [[편향-분산 트레이드오프]](Bias-Variance Tradeoff) 관점에서 중요한 함의를 갖는다. 규제 강도 $ $를 높이면 모델의 편향은 증가하지만 분산은 감소하게 되는데, 적절한 지점에서 최적의 $ $를 선택함으로써 전체 예측 오차를 최소화할 수 있다. 이는 [[기계 학습]]의 [[일반화]] 성능을 확보하기 위한 필수적인 과정으로 간주된다. 현대의 데이터 과학에서는 릿지와 라쏘의 특성을 결합한 [[엘라스틱 넷]](Elastic Net) 등 더욱 발전된 형태의 규제화 기법들이 활용되고 있으나, 그 근간은 모두 최소제곱법의 목적 함수를 변형하여 모델의 복잡도를 제어하려는 편향 회귀의 원리에 닿아 있다. | ||
| ===== 학문적 및 실무적 응용 ===== | ===== 학문적 및 실무적 응용 ===== | ||
| - | 최소제곱법이 다양한 전문 | + | [[최소제곱법]](Method of Least Squares)은 관측 데이터에 포함된 [[오차]](Error)를 통계적으로 처리하여 최적의 해를 도출하는 방법론으로서, |
| + | |||
| + | [[측량학]](Geodesy) 및 [[위성 항법 시스템]](Global Navigation Satellite System, GNSS) 분야에서 | ||
| + | |||
| + | [[경제학]] 및 [[계량경제학]](Econometrics)에서는 변수 간의 인과관계를 규명하고 미래 가치를 예측하기 위한 [[회귀 분석]](Regression analysis)의 표준적 추정 방식으로 자리 잡고 있다. [[애덤 스미스]] 이후의 고전 경제학적 가설들을 실증적으로 검증하기 위해, 연구자들은 수집된 통계 자료에 최소제곱법을 적용하여 모델의 매개변수를 추정한다. [[가우스-마르코프 정리]](Gauss-Markov theorem)에 의해 일정한 통계적 가정이 충족될 경우, 최소제곱 추정량은 [[최선 선형 불편 추정량]](Best Linear Unbiased Estimator, BLUE)이 됨이 수학적으로 증명되어 있다. 이는 경제 정책의 효과 분석이나 [[국내총생산]](Gross Domestic Product, GDP) 성장률 예측 등 높은 신뢰도가 요구되는 의사결정 과정에서 최소제곱법이 가장 우선적으로 고려되는 이유이다. | ||
| + | |||
| + | 현대 [[기계 학습]](Machine Learning)과 [[인공지능]](Artificial Intelligence) 분야에서 최소제곱법은 데이터를 학습시키는 [[최적화]](Optimization) | ||
| + | |||
| + | [[물리학]]과 [[천문학]] 등 기초 과학 분야에서도 최소제곱법의 위상은 독보적이다. 실험실에서 얻은 데이터로부터 [[플랑크 상수]]나 [[중력 상수]]와 같은 물리적 상수를 정밀하게 추출할 때, 실험 오차를 배제하고 이론값에 가장 근접한 수치를 얻기 위해 이 방법이 사용된다. 천문학에서는 [[케플러의 법칙]]을 따르는 천체의 궤도 요소를 결정하거나, | ||
| ==== 측량학 및 위성 항법 ==== | ==== 측량학 및 위성 항법 ==== | ||
| - | 지표면의 위치 결정 | + | [[측량학]](Surveying) 및 [[측지학]](Geodesy) 분야에서 최소제곱법은 관측값에 포함된 불가피한 [[오차]](Error)를 합리적으로 배분하여 최적의 지형 정보를 도출하는 [[오차론]](Theory of Errors)의 핵심 도구이다. |
| + | |||
| + | [[위성 항법 시스템]](Global Navigation Satellite System, GNSS)에서의 위치 결정 과정은 최소제곱법의 현대적 응용을 보여주는 대표적인 사례이다. GNSS 수신기는 최소 4기 이상의 | ||
| + | |||
| + | $$ \rho_i = \sqrt{(x_i - x)^2 + (y_i - y)^2 + (z_i - z)^2} + c \cdot dt + \epsilon_i $$ | ||
| + | |||
| + | 위 식에서 | ||
| + | |||
| + | 위성 항법에서는 모든 관측치의 품질이 동일하지 않다는 점을 고려하여 [[가중 최소제곱법]](Weighted Least Squares, WLS)이 널리 사용된다. 예를 들어, 위성의 고도각이 낮을수록 신호가 대기권을 통과하는 경로가 길어져 [[대기 굴절]](Atmospheric Refraction)이나 [[다중 경로]](Multipath) 오차의 영향이 커진다. 따라서 이러한 저고도 위성 신호에는 낮은 가중치를, | ||
| + | |||
| + | $$ \hat{x} = (A^T W A)^{-1} A^T W y $$ | ||
| + | |||
| + | 여기서 $A$는 선형화된 | ||
| ==== 경제학 및 계량 분석 ==== | ==== 경제학 및 계량 분석 ==== | ||
| - | 경제 | + | 경제학적 현상을 수치적으로 분석하고 규명하는 [[계량경제학]](Econometrics)의 영역에서 최소제곱법은 가장 중추적인 역할을 수행한다. 경제학자들은 이론적으로 도출된 가설을 현실 데이터로 검증하기 위해 [[회귀 분석]](Regression Analysis)을 활용하며, |
| + | |||
| + | 경제 분석에서 최소제곱법은 단순히 변수 사이의 상관관계를 | ||
| + | |||
| + | $$ Y_i = \beta_0 + \beta_1 X_{1i} + \beta_2 X_{2i} + \dots + \beta_k X_{ki} + \epsilon_i $$ | ||
| + | |||
| + | 위 식에서 최소제곱법은 오차항 $ _i $의 제곱합을 최소화하는 계수 $ $들을 찾아냄으로써, | ||
| + | |||
| + | 그러나 경제 데이터는 자연과학 데이터와 달리 [[시계열]]적 상관관계나 [[이분산성]](Heteroscedasticity)을 갖는 경우가 많아, 단순한 최소제곱법의 적용에는 주의가 요구된다. 경제 지표들은 시간의 흐름에 따라 서로 영향을 주고받는 [[자기상관]](Autocorrelation)의 특성을 보이기 쉬우며, 이는 [[가우스-마르코프 정리]]가 전제하는 오차항의 독립성 가정을 위배할 수 있다. 따라서 현대 계량경제학에서는 이러한 한계를 극복하기 위해 [[일반화 최소제곱법]](Generalized Least Squares, GLS)이나 [[도구 | ||
| + | |||
| + | 결과적으로 경제학 및 계량 분석에서의 | ||
| ==== 기계 학습과 인공지능 ==== | ==== 기계 학습과 인공지능 ==== | ||
| - | 데이터 학습 과정에서 손실 함수를 최소화하는 최적화 기법의 | + | [[기계 학습]](Machine Learning)과 [[인공지능]](Artificial Intelligence)의 영역에서 [[최소제곱법]]은 |
| + | |||
| + | 기계 학습의 [[지도 학습]](Supervised Learning) 회귀 문제에서 가장 널리 사용되는 [[평균 제곱 오차]](Mean Squared Error, MSE)는 최소제곱법의 원리를 통계적 학습의 영역으로 직접적으로 확장한 형태이다. $ n $개의 학습 데이터에 대하여, 실제 타겟값 $ y_i $와 모델의 예측값 $ _i $ 사이의 평균 제곱 오차는 다음과 같이 정의된다. | ||
| + | |||
| + | $$ MSE = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 $$ | ||
| + | |||
| + | 이 수식을 | ||
| + | )). 특히 [[딥러닝]](Deep Learning)의 초기 단계에서 [[신경망]](Neural Network)의 가중치를 업데이트하기 위한 목적 함수로 최소제곱 기준이 채택되었으며, | ||
| + | |||
| + | 최소제곱법이 기계 학습에서 강력한 정당성을 갖는 이유는 확률론적 관점에서의 [[최대 우도 추정]](Maximum Likelihood Estimation, MLE)과의 긴밀한 연관성에 있다. 만약 모델의 예측 오차가 서로 독립이며 동일한 [[가우시안 분포]](Gaussian Distribution)를 따른다고 가정할 경우, 데이터에 대한 로그 우도(Log-likelihood)를 최대화하는 문제는 수학적으로 | ||
| + | )). 이러한 통계적 동치성은 최소제곱법이 단순한 수치적 기법을 넘어, 데이터에 내재된 [[노이즈]](Noise)를 확률적으로 처리하는 합리적인 추론 방식임을 뒷받침한다. | ||
| + | |||
| + | 대규모 데이터를 다루는 현대 인공지능 환경에서는 [[정규 방정식]]을 통해 해를 직접 구하는 방식보다 [[경사 하강법]](Gradient Descent)과 같은 반복적 최적화 알고리즘이 주로 사용된다. | ||
| + | )). | ||
| + | |||
| + | 결과적으로 최소제곱법은 | ||