문서의 선택한 두 판 사이의 차이를 보여줍니다.
| 양쪽 이전 판이전 판다음 판 | 이전 판 | ||
| 최소제곱법 [2026/04/14 18:35] – 최소제곱법 sync flyingtext | 최소제곱법 [2026/04/14 18:45] (현재) – 최소제곱법 sync flyingtext | ||
|---|---|---|---|
| 줄 173: | 줄 173: | ||
| === 행렬 대수를 이용한 해법 === | === 행렬 대수를 이용한 해법 === | ||
| - | 관측 행렬과 설계 행렬을 이용해 최적 매개변수 벡터를 산출하는 행렬 | + | 선형 최소제곱법의 해를 도출하는 과정은 [[선형대수학]](Linear Algebra)의 행렬 연산을 통해 체계적으로 정식화된다. $ n $개의 |
| + | |||
| + | $$ \mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\epsilon} $$ | ||
| + | |||
| + | 여기서 $ $는 $ n $ 크기의 [[관측 벡터]](observation vector)이며, | ||
| + | |||
| + | 최소제곱법의 목적은 [[잔차]](residual)의 제곱합을 최소화하는 최적의 매개변수 벡터 $ $를 찾는 것이다. 잔차 벡터 $ $는 실제 관측값과 모델에 의한 예측값의 차이로 정의되며, | ||
| + | |||
| + | $$ \mathbf{r} = \mathbf{y} - \mathbf{X}\hat{\boldsymbol{\beta}} $$ | ||
| + | |||
| + | 최소화의 대상이 되는 [[목적 함수]](objective function) $ S() $는 잔차 벡터의 내적, 즉 [[잔차 제곱합]](Sum of Squared Residuals, SSR)으로 정의된다. | ||
| + | |||
| + | $$ S(\boldsymbol{\beta}) = \mathbf{r}^T \mathbf{r} = (\mathbf{y} - \mathbf{X}\boldsymbol{\beta})^T (\mathbf{y} - \mathbf{X}\boldsymbol{\beta}) $$ | ||
| + | |||
| + | 위 식을 [[전치 행렬]](transpose matrix)의 성질을 이용하여 전개하면 다음과 같은 형태가 된다. | ||
| + | |||
| + | $$ S(\boldsymbol{\beta}) = \mathbf{y}^T \mathbf{y} - \mathbf{y}^T \mathbf{X}\boldsymbol{\beta} - \boldsymbol{\beta}^T \mathbf{X}^T \mathbf{y} + \boldsymbol{\beta}^T \mathbf{X}^T \mathbf{X} \boldsymbol{\beta} $$ | ||
| + | |||
| + | 이때 $ ^T $는 스칼라 값이므로 그 전치인 $ ^T ^T $와 동일하다. 따라서 목적 함수는 다음과 같이 정리된다. | ||
| + | |||
| + | $$ S(\boldsymbol{\beta}) = \mathbf{y}^T \mathbf{y} - 2\boldsymbol{\beta}^T \mathbf{X}^T \mathbf{y} + \boldsymbol{\beta}^T \mathbf{X}^T \mathbf{X} \boldsymbol{\beta} $$ | ||
| + | |||
| + | 함수 $ S() $를 최소화하기 위해 매개변수 벡터 $ $에 대해 [[편미분]]을 수행하고, | ||
| + | |||
| + | $$ \frac{\partial S}{\partial \boldsymbol{\beta}} = -2\mathbf{X}^T \mathbf{y} + 2\mathbf{X}^T \mathbf{X} \boldsymbol{\beta} = \mathbf{0} $$ | ||
| + | |||
| + | 이를 정리하면 선형 최소제곱법의 핵심인 [[정규 방정식]](Normal Equation)이 도출된다. | ||
| + | |||
| + | $$ \mathbf{X}^T \mathbf{X} \hat{\boldsymbol{\beta}} = \mathbf{X}^T \mathbf{y} $$ | ||
| + | |||
| + | 만약 설계 행렬 $ $가 [[열 풀 랭크]](full column rank)를 가져 $ ^T $의 [[역행렬]](inverse matrix)이 존재한다면, | ||
| + | |||
| + | $$ \hat{\boldsymbol{\beta}} = (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \mathbf{y} $$ | ||
| + | |||
| + | 이 식에서 $ (^T )^{-1} ^T $ 부분은 [[무어-펜로즈 유사역행렬]](Moore-Penrose pseudoinverse)의 특수한 형태로 간주될 수 있다. 또한, 이를 통해 계산된 예측값 $ = $는 관측 벡터 $ $를 설계 행렬의 [[열 공간]](column space)으로 투영한 것과 같으며, 이때 작용하는 행렬 | ||
| + | |||
| + | 행렬 대수를 이용한 이러한 해법은 변수의 개수가 많은 복잡한 모델에서도 일관된 계산 절차를 제공하며, | ||
| ==== 단순 선형 회귀 ==== | ==== 단순 선형 회귀 ==== | ||
| 줄 264: | 줄 300: | ||
| === 가우스 뉴턴 방법 === | === 가우스 뉴턴 방법 === | ||
| - | 테일러 전개를 통해 | + | 가우스 뉴턴 방법(Gauss-Newton method)은 비선형 최소제곱 문제를 해결하기 위해 고안된 가장 대표적인 반복적 최적화 알고리즘이다. [[선형 최소제곱법]]과 달리, 모델 함수가 매개변수에 대해 비선형적일 경우 최적해를 단번에 도출할 수 있는 [[정규 방정식]]이 존재하지 않는다. 따라서 가우스 뉴턴 방법은 매개변수의 현재 추정치 근방에서 비선형 함수를 [[테일러 전개]](Taylor expansion)를 통해 선형 |
| + | |||
| + | 가우스 뉴턴 방법의 핵심은 모델 | ||
| + | |||
| + | $$ f(x_i, \boldsymbol{\beta}^{(k)} + \Delta \boldsymbol{\beta}) \approx f(x_i, \boldsymbol{\beta}^{(k)}) + \sum_{j=1}^{p} \frac{\partial f(x_i, \boldsymbol{\beta}^{(k)})}{\partial \beta_j} \Delta \beta_j $$ | ||
| + | |||
| + | 위 식에서 각 매개변수에 대한 모델 함수의 편미분 계수들로 구성된 행렬을 [[야코비 행렬]](Jacobian matrix)이라 하며, 이를 $ $로 표기한다. 야코비 행렬의 각 성분은 $ J_{ij} = $로 정의된다. 이를 행렬 형태로 나타내면 잔차 벡터 $ (^{(k)} + ) $는 다음과 같이 근사된다. | ||
| + | |||
| + | $$ \mathbf{r}(\boldsymbol{\beta}^{(k)} + \Delta \boldsymbol{\beta}) \approx \mathbf{r}(\boldsymbol{\beta}^{(k)}) - \mathbf{J} \Delta \boldsymbol{\beta} $$ | ||
| + | |||
| + | 이제 비선형 최소제곱 문제는 $ $에 대한 선형 최소제곱 문제로 치환된다. 이 선형화된 체계에서 잔차 제곱합을 최소화하는 증분 $ $를 찾기 위해 [[정규 방정식]]의 형태를 | ||
| + | |||
| + | $$ (\mathbf{J}^T \mathbf{J}) \Delta \boldsymbol{\beta} = \mathbf{J}^T \mathbf{r}(\boldsymbol{\beta}^{(k)}) $$ | ||
| + | |||
| + | 이 방정식을 풀어 얻은 $ $를 사용하여 매개변수를 $ ^{(k+1)} = ^{(k)} + $와 같이 갱신한다. 이 과정을 잔차의 변화량이 충분히 작아지거나 미리 설정한 수렴 조건에 도달할 때까지 | ||
| + | |||
| + | 가우스 뉴턴 방법은 일반적인 [[뉴턴 방법]]과 비교했을 때 중요한 수학적 함의를 갖는다. 뉴턴 방법은 목적 함수의 2차 미분 정보인 [[헤세 행렬]]을 필요로 하지만, 가우스 뉴턴 방법은 목적 함수가 잔차의 제곱합이라는 특수한 구조를 가짐을 이용한다. 목적 함수 $ S() $의 헤세 행렬을 직접 계산하면 야코비 행렬의 곱인 $ 2^T $ 항과 잔차의 2차 미분이 포함된 항의 합으로 나타난다. 가우스 뉴턴 방법은 잔차가 0에 가깝거나 모델의 비선형성이 크지 않다는 가정하에 2차 미분항을 무시하고 $ 2^T $만을 사용하여 헤세 행렬을 근사한다. 이는 복잡한 2차 미분 계산을 생략하면서도 최적점 근처에서 [[뉴턴 방법]]에 준하는 빠른 수렴 속도를 유지할 수 있게 한다. | ||
| + | |||
| + | 그러나 가우스 뉴턴 방법은 몇 가지 한계점을 지닌다. 우선, 초기 추정치 $ ^{(0)} $가 실제 최적해에서 멀리 떨어져 있을 경우, 선형 근사의 오류가 커져 알고리즘이 수렴하지 않고 발산할 위험이 있다. 또한, 야코비 행렬의 열들이 [[선형 독립]](linearly independent)이 아니거나 [[조건수]](condition number)가 매우 큰 경우, $ ^T $의 역행렬을 구하는 과정에서 수치적 불안정성이 발생한다. 이러한 수렴 안정성 문제를 해결하기 위해 증분 $ $에 일정한 보정 계수를 도입하거나, | ||
| === 레벤버그 마쿼트 알고리즘 === | === 레벤버그 마쿼트 알고리즘 === | ||
| - | 가우스 뉴턴 방법과 경사 하강법을 결합하여 수렴의 안정성을 | + | [[비선형 최소제곱법]]의 반복적 해법 중 하나인 [[가우스 뉴턴 방법]]은 국소 최적해 근처에서 매우 빠른 수렴 속도를 보이지만, |
| + | |||
| + | 레벤버그 마쿼트 알고리즘은 케네스 레벤버그(Kenneth Levenberg)가 1944년에 처음 제안하고, | ||
| + | |||
| + | $$ (\mathbf{J}^\top \mathbf{J} + \lambda \mathbf{I}) \boldsymbol{\delta} = \mathbf{J}^\top \mathbf{r} $$ | ||
| + | |||
| + | 여기서 $ $는 [[단위 행렬]](Identity matrix)이다. 댐핑 인자 $ $는 알고리즘의 거동을 제어하는 핵심적인 역할을 수행한다. 만약 $ $의 값이 매우 크다면, 좌변의 항 중 $ $가 지배적으로 작용하여 업데이트 방향은 경사 하강법의 방향인 $ ^ $에 가까워진다. 이는 현재 지점에서 목적 함수가 감소하는 안전한 방향으로 이동하게 함으로써 초기 추정값이 부정확하거나 모델의 비선형성이 강할 때 알고리즘의 안정성을 보장한다. 반대로 $ $가 0에 가까워지면, | ||
| + | |||
| + | 도널드 마쿼트는 단순히 단위 행렬을 사용하는 대신, 야코비 행렬의 정보를 반영한 대각 행렬을 사용할 것을 제안하며 알고리즘을 개선하였다. 즉, $ (^ + (^)) = ^ $의 형태를 취함으로써, | ||
| + | |||
| + | 결과적으로 레벤버그 마쿼트 | ||
| ===== 통계적 성질과 타당성 ===== | ===== 통계적 성질과 타당성 ===== | ||
| 줄 305: | 줄 369: | ||
| ==== 잔차 분석과 적합도 ==== | ==== 잔차 분석과 적합도 ==== | ||
| - | 결정 | + | [[최소제곱법]]을 통해 도출된 [[회귀 |
| + | |||
| + | 모델의 전체적인 적합도를 | ||
| + | |||
| + | $$ TSS = \sum_{i=1}^{n} (y_i - \bar{y})^2, \quad RSS = \sum_{i=1}^{n} (\hat{y}_i - \bar{y})^2, \quad SSE = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 $$ | ||
| + | |||
| + | 여기서 $ y_i $는 실제 관측값, $ _i $는 모델에 의한 예측값, $ {y} $는 관측값의 평균이다. 결정 계수 $ R^2 $는 전체 변동 대비 설명된 변동의 비율로 계산되며, | ||
| + | |||
| + | $$ R^2 = \frac{RSS}{TSS} = 1 - \frac{SSE}{TSS} $$ | ||
| + | |||
| + | $ R^2 $가 1에 가까울수록 모델이 데이터를 잘 설명하고 있음을 의미한다. 그러나 [[다중 회귀 분석]](Multiple Regression Analysis)에서는 모델에 독립 변수를 추가할수록 설명력의 유의성과 관계없이 $ R^2 $ 값이 기계적으로 상승하는 경향이 있다. 이러한 왜곡을 방지하기 위해 [[자유도]](Degrees of Freedom)를 고려하여 보정한 [[수정된 결정 계수]](Adjusted $ R^2 $)를 사용한다. 수정된 결정 계수는 불필요한 변수의 추가에 대해 벌점을 부여함으로써 모델의 효율성을 보다 객관적으로 평가할 수 있게 한다. | ||
| + | |||
| + | 적합도 지표가 모델의 양적인 성능을 나타낸다면, | ||
| + | |||
| + | 가장 보편적인 진단 방법은 잔차 산점도(Residual Plot)를 활용하는 것이다. 가로축에 예측값이나 독립 변수를, 세로축에 잔차를 배치했을 때 잔차가 특정 패턴 없이 0을 중심으로 무작위하게 흩어져 있어야 모델의 [[선형성]](Linearity)과 등분산성 가정이 유지되는 것으로 본다. 만약 잔차가 깔때기 모양으로 퍼진다면 이는 오차의 분산이 일정하지 않은 등분산성 위배를 시사하며, | ||
| + | |||
| + | 또한, 오차항의 정규성 가정은 [[Q-Q 플롯]](Quantile-Quantile Plot)을 통해 시각적으로 검토할 수 있다. 관측된 잔차의 분위수와 정규 분포의 이론적 분위수를 대응시켰을 때 데이터 포인트들이 직선상에 위치한다면 정규성 가정이 충족된 것으로 간주한다. 잔차 분석을 통해 발견된 이상 징후는 변수 변환이나 [[가중 최소제곱법]]의 도입 등 모델 수정의 근거가 되며, 최종적으로 모델의 추론 결과에 대한 학술적 신뢰도를 결정짓는 핵심적인 근거가 된다((4.1 - Residuals | STAT 462, https:// | ||
| + | ))((1.5 - The Coefficient of Determination, | ||
| + | )). | ||
| ==== 이상치와 강건성 ==== | ==== 이상치와 강건성 ==== | ||
| - | 최소제곱법이 이상치에 | + | [[최소제곱법]](Method of Least Squares)은 오차항이 [[정규분포]](Normal distribution)를 따르고 독립적이며 동일한 분산을 가진다는 가정하에서 매우 효율적인 추정치를 제공한다. 그러나 이러한 가정은 실제 관측 데이터에서 빈번하게 위배되며, |
| + | |||
| + | 최소제곱법이 이상치에 취약한 근본적인 원인은 [[목적 함수]](Objective function)의 구조에 있다. 이 기법은 [[잔차]](Residual)의 제곱합을 최소화하는 것을 목표로 하므로, 특정 데이터 포인트의 잔차가 클수록 그 제곱값은 기하급수적으로 커지게 된다. 수학적으로 $ i $번째 관측값 $ y_i $에 대한 잔차를 $ r_i = y_i - _i $라고 할 때, 전체 손실은 $ r_i^2 $으로 정의된다. 만약 특정 지점에서 매우 큰 잔차가 발생하면, | ||
| + | |||
| + | 이러한 수치적 민감도를 정량화하기 위해 [[강건 통계학]](Robust statistics)에서는 [[영향력 함수]](Influence function)와 [[붕괴점]](Breakdown point)이라는 개념을 사용한다. 영향력 함수는 특정 위치에 관측값이 추가되었을 때 추정량이 얼마나 변하는지를 나타내며, | ||
| + | |||
| + | 이상치의 악영향을 억제하고 통계적 안정성을 확보하기 위해 고안된 성질이 [[강건성]](Robustness)이다. 강건한 추정 방법론은 데이터의 일부가 오염되거나 기저 분포의 가정이 어긋나더라도 추정 성능을 일정 수준 이상으로 유지하는 것을 목표로 한다. 대표적인 대안으로는 [[최소절대편차]](Least Absolute Deviations, LAD)법이 있다. 이는 잔차의 제곱 대신 절댓값의 합을 최소화하는 $ L_1 $ 노름(norm) 기반의 최적화 기법으로, | ||
| + | |||
| + | 더욱 정교한 접근법으로는 [[피터 후버]](Peter Huber)가 제안한 [[M-추정]](M-estimation)이 있다. M-추정은 잔차의 크기에 따라 손실 함수의 형태를 가변적으로 적용한다. 예를 들어, [[후버 손실 함수]](Huber loss function)는 잔차가 일정 임계값 이하일 때는 최소제곱법과 같이 제곱 함수를 적용하여 효율성을 높이고, 임계값을 초과하는 큰 잔차에 대해서는 절댓값 함수를 적용하여 이상치의 가중치를 제한한다. | ||
| + | |||
| + | $$ L_{\delta}(r) = \begin{cases} \frac{1}{2}r^2 & \text{for } |r| \le \delta \\ \delta(|r| - \frac{1}{2}\delta) & \text{for } |r| > \delta \end{cases} $$ | ||
| + | |||
| + | 여기서 $ $는 이상치를 판별하는 조율 매개변수이다. 이외에도 [[지렛대 점]](Leverage point)의 영향을 제어하기 위한 [[S-추정]]이나 [[MM-추정]] 등 다양한 강건 회귀 기법들이 개발되어 실무에 적용되고 있다. 특히 [[반복 재가중 최소제곱법]](Iteratively Reweighted Least Squares, IRLS)은 각 데이터 포인트에 가중치를 부여하고, | ||
| + | )) | ||
| ===== 주요 변형 기법 ===== | ===== 주요 변형 기법 ===== | ||
| - | 기본적인 최소제곱법의 한계를 극복하기 위해 변형된 다양한 기법들을 소개한다. | + | [[최소제곱법]]은 오차항에 대한 엄격한 가정을 전제로 성립하는 |
| + | |||
| + | [[가중 최소제곱법]](Weighted Least Squares, WLS)은 관측값마다 오차의 분산이 서로 다를 때 활용되는 대표적인 기법이다. 각 데이터 포인트의 신뢰도에 따라 서로 다른 가중치를 부여함으로써, | ||
| + | |||
| + | [[일반화 최소제곱법]](Generalized Least Squares, GLS)은 가중 최소제곱법을 더욱 일반화한 형태이다. 오차항들 사이에 상관관계가 존재하거나 분산이 일정하지 않은 경우, 오차항의 [[공분산 행렬]](covariance matrix)인 $ $를 고려하여 매개변수를 추정한다. GLS 추정량 $ _{GLS} $는 행렬 대수를 통해 다음과 같이 도출된다. $$ \hat{\beta}_{GLS} = (X^T \Omega^{-1} X)^{-1} X^T \Omega^{-1} y $$ 이 방법은 데이터의 구조적 의존성을 모델 내부에 직접 수용함으로써 오차항의 상관계수가 0이 아니라는 가정을 처리할 수 있게 해준다((Generalized least squares (GLS regression), | ||
| + | )). 만약 공분산 행렬 $ $가 대각 행렬이라면 이는 가중 최소제곱법과 동일한 결과를 낳는다. | ||
| + | |||
| + | 데이터 내에 극단적인 [[이상치]](outlier)가 포함되어 있을 경우, 잔차의 제곱을 최소화하는 특성상 최소제곱법은 해당 이상치에 매우 민감하게 반응하여 모델의 전체적인 성능을 저하시킨다. 이를 해결하기 위해 [[강건 회귀]](Robust Regression) 기법이 사용된다. 대표적인 방법인 M-추정(M-estimation)은 잔차의 제곱 대신 이상치의 영향을 덜 받는 다른 형태의 손실 함수(예: Huber 손실 함수)를 정의하여 최적화를 수행한다. 이는 데이터의 분포가 [[정규 분포]]에서 벗어나거나 꼬리가 두꺼운 분포를 가질 때 모델의 안정성을 보장하는 역할을 한다. | ||
| + | |||
| + | 현대적인 데이터 분석 및 [[기계 학습]] 분야에서는 [[다중공선성]](multicollinearity) 문제를 해결하고 모델의 일반화 성능을 높이기 위해 [[규제화 최소제곱법]](Regularized Least Squares)이 널리 쓰인다. 이는 기존의 잔차 제곱합에 매개변수의 크기에 대한 [[벌점항]](penalty term)을 추가하는 방식이다. [[릿지 회귀]](Ridge Regression)는 매개변수 제곱의 합($ L_2 $ 규제)을 추가하여 계수의 크기를 줄임으로써 모델의 분산을 감소시킨다((Ridge Regularization: | ||
| + | )). 반면 [[라쏘 회귀]](Lasso Regression)는 매개변수 절대값의 합($ L_1 $ 규제)을 추가하며, | ||
| + | )). 이러한 규제화 기법은 [[편향-분산 트레이드오프]](bias-variance tradeoff)를 조절하여 [[과적합]](overfitting)을 방지하는 핵심적인 도구로 기능한다. | ||
| ==== 가중 최소제곱법 ==== | ==== 가중 최소제곱법 ==== | ||
| - | 각 관측값의 신뢰도나 분산이 다를 경우 | + | 가중 최소제곱법(Weighted Least Squares, WLS)은 모델의 [[오차항]](Error term)들이 서로 다른 [[분산]](Variance)을 가지는 [[이분산성]](Heteroscedasticity) 문제를 해결하기 위해 고안된 [[최소제곱법]]의 확장 형태이다. 표준적인 [[선형 최소제곱법]]은 모든 관측값의 오차가 동일한 분산을 가진다는 [[등분산성]](Homoscedasticity)을 가정한다. 그러나 실제 측정 데이터에서는 관측 환경의 변화, 측정 기기의 정밀도 차이, 혹은 데이터 수집 대상의 규모 차이 등으로 인해 |
| + | |||
| + | 가중 최소제곱법의 수학적 원리는 [[잔차]](residual)의 제곱합을 계산할 때 각 항에 가중치(weight)를 곱하여 [[목적 함수]](Objective function)를 재구성하는 것이다. $ n $개의 관측 데이터 $ (x_i, y_i) $에 대하여, 모델 함수를 $ f(x_i, ) $라고 할 때 가중 잔차 제곱합 $ S $는 다음과 같이 | ||
| + | |||
| + | $$ S = \sum_{i=1}^{n} w_i (y_i - f(x_i, \beta))^2 $$ | ||
| + | |||
| + | 여기서 $ w_i $는 $ i $번째 관측값에 할당된 가중치이다. 통계적으로 가장 이상적인 가중치는 각 관측값 오차의 분산 $ _i^2 $의 역수, 즉 $ w_i = 1/_i^2 $로 설정하는 것이다. 이러한 설정을 통해 분산이 작아 신뢰도가 높은 데이터는 목적 함수에서 큰 비중을 차지하게 되고, 반대로 분산이 커서 불확실성이 높은 데이터는 상대적으로 적은 영향을 미치게 된다. 이는 결과적으로 전체 추정량의 분산을 최소화하는 효과를 낳는다. | ||
| + | |||
| + | 이를 행렬 대수(Matrix Algebra)를 이용하여 일반화하면 더욱 체계적인 | ||
| + | |||
| + | $$ S = (\mathbf{y} - \mathbf{X}\boldsymbol{\beta})^T \mathbf{W} (\mathbf{y} - \mathbf{X}\boldsymbol{\beta}) $$ | ||
| + | |||
| + | 위 식을 $ $에 대해 미분하여 최솟값을 갖는 조건을 구하면, 가중 최소제곱법의 [[정규 | ||
| + | |||
| + | $$ \hat{\boldsymbol{\beta}}_{WLS} = (\mathbf{X}^T \mathbf{W} \mathbf{X})^{-1} \mathbf{X}^T \mathbf{W} \mathbf{y} $$ | ||
| + | |||
| + | 가중 최소제곱법을 | ||
| ==== 일반화 최소제곱법 ==== | ==== 일반화 최소제곱법 ==== | ||
| - | 오차항들 사이에 상관관계가 | + | 일반화 최소제곱법(Generalized Least Squares, GLS)은 [[선형 회귀 모델]]에서 |
| + | |||
| + | 일반화 최소제곱법의 수학적 정식화를 위해 다음과 같은 선형 모델을 가정한다. $ y = X+ $ 여기서 $ y $는 $ n $ 종속 변수 벡터, $ X $는 $ n k $ 설계 행렬, $ $는 추정하고자 하는 매개변수 | ||
| + | |||
| + | GLS의 핵심 원리는 오차항의 공분산 구조를 반영하여 원 데이터를 변환함으로써, | ||
| + | |||
| + | 이러한 GLS 추정량의 통계적 타당성은 [[에이킨의 정리]](Aitken’s Theorem)에 의해 보장된다. [[알렉산더 에이킨]](Alexander Aitken)이 정립한 이 정리에 따르면, 오차항의 공분산 구조 $ $를 알고 있을 때 GLS 추정량은 모든 선형 불편 추정량 중에서 가장 작은 분산을 가지는 [[최적 선형 불편 추정량]](Best Linear Unbiased Estimator, BLUE)이 된다((Aitken’s Generalization of the Gauss-Markov Theorem 1, https:// | ||
| + | )). 이는 OLS가 이분산성이나 자기상관이 존재하는 상황에서 더 이상 효율적이지 않다는 점을 시사하며, | ||
| + | |||
| + | 실제 학술 연구나 실무적 응용에서는 공분산 행렬 $ $의 구체적인 형태를 사전에 알 수 없는 경우가 많다. 이 경우 데이터로부터 $ $를 먼저 추정한 뒤 이를 GLS 식에 대입하는 [[가능 최소제곱법]](Feasible Generalized Least Squares, FGLS)이 주로 사용된다. GLS는 [[계량경제학]]의 [[시계열 분석]]이나 [[패널 데이터]] 분석에서 오차 구조의 복잡성을 다루는 표준적인 방법론으로 자리 잡고 있으며, 공간 통계학이나 [[측량학]] 등 관측값 간의 지리적·시간적 연관성이 중요한 분야에서 광범위하게 활용된다((Lecture 11: Generalized Least Squares (GLS), https:// | ||
| + | )). | ||
| ==== 편향 회귀와 규제화 ==== | ==== 편향 회귀와 규제화 ==== | ||
| - | 과적합을 | + | [[최소제곱법]]을 통한 추정은 [[가우스-마르코프 정리]]에 따라 일정한 가정하에서 [[최선 선형 불편 추정량]](Best Linear Unbiased Estimator, BLUE)을 제공한다. 그러나 실제 데이터 분석 과정에서는 독립 변수 간의 강한 상관관계로 인한 [[다중공선성]](Multicollinearity) 문제가 발생하거나, |
| + | |||
| + | [[규제화]](Regularization)는 이러한 편향 회귀를 구현하는 핵심적인 수치적 수단으로, | ||
| + | |||
| + | $$ J(\beta) = \sum_{i=1}^{n} (y_i - \mathbf{x}_i^T \beta)^2 + \lambda P(\beta) $$ | ||
| + | |||
| + | 여기서 $ $는 규제의 강도를 조절하는 비음수의 [[하이퍼파라미터]](Hyperparameter)이며, | ||
| + | |||
| + | [[릿지 회귀]](Ridge Regression)는 벌점항으로 매개변수의 $ L_2 $ [[노름]](Norm)의 제곱을 사용하는 방식이다. 1970년 [[호얼]](Hoerl)과 [[케나드]](Kennard)에 의해 제안된 이 방법은 계수의 제곱합을 제한함으로써 모든 계수를 균등하게 0에 가깝게 축소시킨다. 릿지 회귀의 추정량은 다음과 같은 [[정규 방정식]]의 변형을 통해 산출된다. | ||
| + | |||
| + | $$ \hat{\beta}_{ridge} = (\mathbf{X}^T \mathbf{X} + \lambda \mathbf{I})^{-1} \mathbf{X}^T \mathbf{y} $$ | ||
| + | |||
| + | 여기서 $ $는 [[단위 행렬]]이다. 릿지 회귀는 특히 설계 행렬 $ $가 [[풀 랭크]](Full rank)가 아니거나 다중공선성으로 인해 $ ^T $의 [[역행렬]] 계산이 불안정할 때, 대각 요소에 $ $를 더함으로써 수치적 안정성을 보장한다. 릿지 회귀는 모든 변수를 모델에 유지하면서도 그 영향력을 감쇄시키는 특징을 지닌다. | ||
| + | |||
| + | 반면 [[라쏘 회귀]](Lasso Regression)는 벌점항으로 매개변수의 $ L_1 $ 노름을 사용하며, | ||
| + | |||
| + | 이러한 규제화 기법들은 [[편향-분산 트레이드오프]](Bias-Variance Tradeoff) 관점에서 중요한 함의를 갖는다. 규제 강도 $ $를 높이면 모델의 편향은 증가하지만 분산은 감소하게 되는데, 적절한 지점에서 최적의 $ $를 선택함으로써 전체 예측 오차를 최소화할 수 있다. 이는 [[기계 학습]]의 [[일반화]] 성능을 확보하기 위한 필수적인 과정으로 간주된다. 현대의 데이터 과학에서는 릿지와 라쏘의 특성을 결합한 [[엘라스틱 넷]](Elastic Net) 등 더욱 발전된 형태의 규제화 기법들이 활용되고 있으나, 그 근간은 모두 최소제곱법의 목적 함수를 변형하여 모델의 복잡도를 제어하려는 편향 회귀의 원리에 닿아 있다. | ||
| ===== 학문적 및 실무적 응용 ===== | ===== 학문적 및 실무적 응용 ===== | ||
| 줄 341: | 줄 489: | ||
| ==== 측량학 및 위성 항법 ==== | ==== 측량학 및 위성 항법 ==== | ||
| - | 지표면의 위치 결정 | + | [[측량학]](Surveying) 및 [[측지학]](Geodesy) 분야에서 최소제곱법은 관측값에 포함된 불가피한 [[오차]](Error)를 합리적으로 배분하여 최적의 지형 정보를 도출하는 [[오차론]](Theory of Errors)의 핵심 도구이다. |
| + | |||
| + | [[위성 항법 시스템]](Global Navigation Satellite System, GNSS)에서의 위치 결정 과정은 최소제곱법의 현대적 응용을 보여주는 대표적인 사례이다. GNSS 수신기는 최소 4기 이상의 | ||
| + | |||
| + | $$ \rho_i = \sqrt{(x_i - x)^2 + (y_i - y)^2 + (z_i - z)^2} + c \cdot dt + \epsilon_i $$ | ||
| + | |||
| + | 위 식에서 | ||
| + | |||
| + | 위성 항법에서는 모든 관측치의 품질이 동일하지 않다는 점을 고려하여 [[가중 최소제곱법]](Weighted Least Squares, WLS)이 널리 사용된다. 예를 들어, 위성의 고도각이 낮을수록 신호가 대기권을 통과하는 경로가 길어져 [[대기 굴절]](Atmospheric Refraction)이나 [[다중 경로]](Multipath) 오차의 영향이 커진다. 따라서 이러한 저고도 위성 신호에는 낮은 가중치를, | ||
| + | |||
| + | $$ \hat{x} = (A^T W A)^{-1} A^T W y $$ | ||
| + | |||
| + | 여기서 $A$는 선형화된 | ||
| ==== 경제학 및 계량 분석 ==== | ==== 경제학 및 계량 분석 ==== | ||
| - | 경제 | + | 경제학적 현상을 수치적으로 분석하고 규명하는 [[계량경제학]](Econometrics)의 영역에서 최소제곱법은 가장 중추적인 역할을 수행한다. 경제학자들은 이론적으로 도출된 가설을 현실 데이터로 검증하기 위해 [[회귀 분석]](Regression Analysis)을 활용하며, |
| + | |||
| + | 경제 분석에서 최소제곱법은 단순히 변수 사이의 상관관계를 | ||
| + | |||
| + | $$ Y_i = \beta_0 + \beta_1 X_{1i} + \beta_2 X_{2i} + \dots + \beta_k X_{ki} + \epsilon_i $$ | ||
| + | |||
| + | 위 식에서 최소제곱법은 오차항 $ _i $의 제곱합을 최소화하는 계수 $ $들을 찾아냄으로써, | ||
| + | |||
| + | 그러나 경제 데이터는 자연과학 데이터와 달리 [[시계열]]적 상관관계나 [[이분산성]](Heteroscedasticity)을 갖는 경우가 많아, 단순한 최소제곱법의 적용에는 주의가 요구된다. 경제 지표들은 시간의 흐름에 따라 서로 영향을 주고받는 [[자기상관]](Autocorrelation)의 특성을 보이기 쉬우며, 이는 [[가우스-마르코프 정리]]가 전제하는 오차항의 독립성 가정을 위배할 수 있다. 따라서 현대 계량경제학에서는 이러한 한계를 극복하기 위해 [[일반화 최소제곱법]](Generalized Least Squares, GLS)이나 [[도구 | ||
| + | |||
| + | 결과적으로 경제학 및 계량 분석에서의 | ||
| ==== 기계 학습과 인공지능 ==== | ==== 기계 학습과 인공지능 ==== | ||
| - | 데이터 학습 과정에서 손실 함수를 최소화하는 최적화 기법의 | + | [[기계 학습]](Machine Learning)과 [[인공지능]](Artificial Intelligence)의 영역에서 [[최소제곱법]]은 |
| + | |||
| + | 기계 학습의 [[지도 학습]](Supervised Learning) 회귀 문제에서 가장 널리 사용되는 [[평균 제곱 오차]](Mean Squared Error, MSE)는 최소제곱법의 원리를 통계적 학습의 영역으로 직접적으로 확장한 형태이다. $ n $개의 학습 데이터에 대하여, 실제 타겟값 $ y_i $와 모델의 예측값 $ _i $ 사이의 평균 제곱 오차는 다음과 같이 정의된다. | ||
| + | |||
| + | $$ MSE = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 $$ | ||
| + | |||
| + | 이 수식을 | ||
| + | )). 특히 [[딥러닝]](Deep Learning)의 초기 단계에서 [[신경망]](Neural Network)의 가중치를 업데이트하기 위한 목적 함수로 최소제곱 기준이 채택되었으며, | ||
| + | |||
| + | 최소제곱법이 기계 학습에서 강력한 정당성을 갖는 이유는 확률론적 관점에서의 [[최대 우도 추정]](Maximum Likelihood Estimation, MLE)과의 긴밀한 연관성에 있다. 만약 모델의 예측 오차가 서로 독립이며 동일한 [[가우시안 분포]](Gaussian Distribution)를 따른다고 가정할 경우, 데이터에 대한 로그 우도(Log-likelihood)를 최대화하는 문제는 수학적으로 | ||
| + | )). 이러한 통계적 동치성은 최소제곱법이 단순한 수치적 기법을 넘어, 데이터에 내재된 [[노이즈]](Noise)를 확률적으로 처리하는 합리적인 추론 방식임을 뒷받침한다. | ||
| + | |||
| + | 대규모 데이터를 다루는 현대 인공지능 환경에서는 [[정규 방정식]]을 통해 해를 직접 구하는 방식보다 [[경사 하강법]](Gradient Descent)과 같은 반복적 최적화 알고리즘이 주로 사용된다. | ||
| + | )). | ||
| + | |||
| + | 결과적으로 최소제곱법은 | ||