차이

문서의 선택한 두 판 사이의 차이를 보여줍니다.

--- 최소제곱법 [2026/04/14 18:37] – 최소제곱법 sync flyingtext
+++ 최소제곱법 [2026/04/14 18:45] (현재) – 최소제곱법 sync flyingtext
@@ 줄 173: / 줄 173: @@
 === 행렬 대수를 이용한 해법 ===
-관측 행렬과 설계 행렬을 이용해 최적 매개변수 벡터를 산출하는 행렬 연산 과정을 기술한다.
+선형 최소제곱법의 해를 도출하는 과정은 [[선형대수학]](Linear Algebra)의 행렬 연산을 통해 체계적으로 정식화된다. $ n $개의 관측값과 $ p $개의 매개변수를 갖는 선형 모델을 고려할 때, 각 관측 식은 독립 변수들의 선형 결합으로 표현된다. 이를 행렬 형태로 나타내면 다음과 같은 기본 방정식을 얻는다.
+$$ \mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\epsilon} $$
+여기서 $  $는 $ n  $ 크기의 [[관측 벡터]](observation vector)이며, $  $는 독립 변수들의 값으로 구성된 $ n p $ 크기의 [[설계 행렬]](design matrix)이다. $  $는 추정하고자 하는 $ p  $ 크기의 매개변수 벡터이며, $  $은 모델로 설명되지 않는 오차를 나타내는 $ n  $ 크기의 [[오차항]] 벡터이다.
+최소제곱법의 목적은 [[잔차]](residual)의 제곱합을 최소화하는 최적의 매개변수 벡터 $  $를 찾는 것이다. 잔차 벡터 $  $는 실제 관측값과 모델에 의한 예측값의 차이로 정의되며, 다음과 같이 기술된다.
+$$ \mathbf{r} = \mathbf{y} - \mathbf{X}\hat{\boldsymbol{\beta}} $$
+최소화의 대상이 되는 [[목적 함수]](objective function) $ S() $는 잔차 벡터의 내적, 즉 [[잔차 제곱합]](Sum of Squared Residuals, SSR)으로 정의된다.
+$$ S(\boldsymbol{\beta}) = \mathbf{r}^T \mathbf{r} = (\mathbf{y} - \mathbf{X}\boldsymbol{\beta})^T (\mathbf{y} - \mathbf{X}\boldsymbol{\beta}) $$
+위 식을 [[전치 행렬]](transpose matrix)의 성질을 이용하여 전개하면 다음과 같은 형태가 된다.
+$$ S(\boldsymbol{\beta}) = \mathbf{y}^T \mathbf{y} - \mathbf{y}^T \mathbf{X}\boldsymbol{\beta} - \boldsymbol{\beta}^T \mathbf{X}^T \mathbf{y} + \boldsymbol{\beta}^T \mathbf{X}^T \mathbf{X} \boldsymbol{\beta} $$
+이때 $ ^T  $는 스칼라 값이므로 그 전치인 $ ^T ^T  $와 동일하다. 따라서 목적 함수는 다음과 같이 정리된다.
+$$ S(\boldsymbol{\beta}) = \mathbf{y}^T \mathbf{y} - 2\boldsymbol{\beta}^T \mathbf{X}^T \mathbf{y} + \boldsymbol{\beta}^T \mathbf{X}^T \mathbf{X} \boldsymbol{\beta} $$
+함수 $ S() $를 최소화하기 위해 매개변수 벡터 $  $에 대해 [[편미분]]을 수행하고, 그 결과를 영벡터로 둔다. 행렬 미분 법칙에 따라 미분하면 다음과 같은 조건을 얻는다.
+$$ \frac{\partial S}{\partial \boldsymbol{\beta}} = -2\mathbf{X}^T \mathbf{y} + 2\mathbf{X}^T \mathbf{X} \boldsymbol{\beta} = \mathbf{0} $$
+이를 정리하면 선형 최소제곱법의 핵심인 [[정규 방정식]](Normal Equation)이 도출된다.
+$$ \mathbf{X}^T \mathbf{X} \hat{\boldsymbol{\beta}} = \mathbf{X}^T \mathbf{y} $$
+만약 설계 행렬 $  $가 [[열 풀 랭크]](full column rank)를 가져 $ ^T  $의 [[역행렬]](inverse matrix)이 존재한다면, 최적 매개변수 벡터 $  $는 다음과 같이 유일하게 결정된다.
+$$ \hat{\boldsymbol{\beta}} = (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \mathbf{y} $$
+이 식에서 $ (^T )^{-1} ^T $ 부분은 [[무어-펜로즈 유사역행렬]](Moore-Penrose pseudoinverse)의 특수한 형태로 간주될 수 있다. 또한, 이를 통해 계산된 예측값 $  =  $는 관측 벡터 $  $를 설계 행렬의 [[열 공간]](column space)으로 투영한 것과 같으며, 이때 작용하는 행렬 $  = (^T )^{-1} ^T $를 [[투영 행렬]](projection matrix) 또는 해트 행렬(hat matrix)이라 부른다.
+행렬 대수를 이용한 이러한 해법은 변수의 개수가 많은 복잡한 모델에서도 일관된 계산 절차를 제공하며, 컴퓨터를 이용한 수치 계산에서 매우 효율적으로 구현될 수 있다는 장점이 있다. 다만, 설계 행렬의 열들 사이에 강한 선형 상관관계가 존재하는 [[다중공선성]] 문제가 발생할 경우 $ ^T  $가 [[특이 행렬]](singular matrix)에 가까워져 수치적 불안정성이 초래될 수 있으므로 주의가 필요하다.
 ==== 단순 선형 회귀 ====
@@ 줄 264: / 줄 300: @@
 === 가우스 뉴턴 방법 ===
-테일러 전개를 통해 비선형 함수를 선형화하여 해를 찾는 기본적인 반복법을 다룬다.
+가우스 뉴턴 방법(Gauss-Newton method)은 비선형 최소제곱 문제를 해결하기 위해 고안된 가장 대표적인 반복적 최적화 알고리즘이다. [[선형 최소제곱법]]과 달리, 모델 함수가 매개변수에 대해 비선형적일 경우 최적해를 단번에 도출할 수 있는 [[정규 방정식]]이 존재하지 않는다. 따라서 가우스 뉴턴 방법은 매개변수의 현재 추정치 근방에서 비선형 함수를 [[테일러 전개]](Taylor expansion)를 통해 선형 함수로 근사한 뒤, 이 선형화된 문제에 대해 최소제곱해를 반복적으로 구함으로써 점진적으로 최적해에 도달한다. 이 기법은 [[아이작 뉴턴]]의 이름을 딴 [[뉴턴 방법]](Newton’s method)을 최소제곱 문제에 특화하여 변형한 것으로, [[헤세 행렬]](Hessian matrix)의 2차 미분항을 계산하는 복잡함을 피하면서도 빠른 수렴 속도를 제공하도록 설계되었다.
+가우스 뉴턴 방법의 핵심은 모델 함수를 선형화하는 과정에 있다. $ n $개의 데이터 포인트 $ (x_i, y_i) $와 $ p $개의 매개변수를 갖는 매개변수 벡터 $  $에 대하여, 비선형 모델 함수를 $ f(x_i, ) $라 하자. 이때 각 데이터 포인트에서의 [[잔차]](residual)는 $ r_i() = y_i - f(x_i, ) $로 정의된다. 최적화하고자 하는 목적 함수는 잔차 제곱합 $ S() = _{i=1}^{n} r_i()^2 $이다. 현재의 매개변수 추정치를 $ ^{(k)} $라고 할 때, 매우 작은 변화량 $  $에 대하여 모델 함수를 1차 테일러 전개하면 다음과 같은 선형 근사식을 얻는다.
+$$ f(x_i, \boldsymbol{\beta}^{(k)} + \Delta \boldsymbol{\beta}) \approx f(x_i, \boldsymbol{\beta}^{(k)}) + \sum_{j=1}^{p} \frac{\partial f(x_i, \boldsymbol{\beta}^{(k)})}{\partial \beta_j} \Delta \beta_j $$
+위 식에서 각 매개변수에 대한 모델 함수의 편미분 계수들로 구성된 행렬을 [[야코비 행렬]](Jacobian matrix)이라 하며, 이를 $  $로 표기한다. 야코비 행렬의 각 성분은 $ J_{ij} =  $로 정의된다. 이를 행렬 형태로 나타내면 잔차 벡터 $ (^{(k)} + ) $는 다음과 같이 근사된다.
+$$ \mathbf{r}(\boldsymbol{\beta}^{(k)} + \Delta \boldsymbol{\beta}) \approx \mathbf{r}(\boldsymbol{\beta}^{(k)}) - \mathbf{J} \Delta \boldsymbol{\beta} $$
+이제 비선형 최소제곱 문제는 $  $에 대한 선형 최소제곱 문제로 치환된다. 이 선형화된 체계에서 잔차 제곱합을 최소화하는 증분 $  $를 찾기 위해 [[정규 방정식]]의 형태를 적용하면 다음과 같은 선형 연립 방정식을 유도할 수 있다.
+$$ (\mathbf{J}^T \mathbf{J}) \Delta \boldsymbol{\beta} = \mathbf{J}^T \mathbf{r}(\boldsymbol{\beta}^{(k)}) $$
+이 방정식을 풀어 얻은 $  $를 사용하여 매개변수를 $ ^{(k+1)} = ^{(k)} +  $와 같이 갱신한다. 이 과정을 잔차의 변화량이 충분히 작아지거나 미리 설정한 수렴 조건에 도달할 때까지 반복적으로 수행한다.
+가우스 뉴턴 방법은 일반적인 [[뉴턴 방법]]과 비교했을 때 중요한 수학적 함의를 갖는다. 뉴턴 방법은 목적 함수의 2차 미분 정보인 [[헤세 행렬]]을 필요로 하지만, 가우스 뉴턴 방법은 목적 함수가 잔차의 제곱합이라는 특수한 구조를 가짐을 이용한다. 목적 함수 $ S() $의 헤세 행렬을 직접 계산하면 야코비 행렬의 곱인 $ 2^T  $ 항과 잔차의 2차 미분이 포함된 항의 합으로 나타난다. 가우스 뉴턴 방법은 잔차가 0에 가깝거나 모델의 비선형성이 크지 않다는 가정하에 2차 미분항을 무시하고 $ 2^T  $만을 사용하여 헤세 행렬을 근사한다. 이는 복잡한 2차 미분 계산을 생략하면서도 최적점 근처에서 [[뉴턴 방법]]에 준하는 빠른 수렴 속도를 유지할 수 있게 한다.
+그러나 가우스 뉴턴 방법은 몇 가지 한계점을 지닌다. 우선, 초기 추정치 $ ^{(0)} $가 실제 최적해에서 멀리 떨어져 있을 경우, 선형 근사의 오류가 커져 알고리즘이 수렴하지 않고 발산할 위험이 있다. 또한, 야코비 행렬의 열들이 [[선형 독립]](linearly independent)이 아니거나 [[조건수]](condition number)가 매우 큰 경우, $ ^T  $의 역행렬을 구하는 과정에서 수치적 불안정성이 발생한다. 이러한 수렴 안정성 문제를 해결하기 위해 증분 $  $에 일정한 보정 계수를 도입하거나, [[레벤버그 마쿼트 알고리즘]](Levenberg-Marquardt algorithm)과 같이 행렬의 대각 성분에 댐핑 인자를 추가하는 변형된 기법들이 실무에서 널리 사용된다. 그럼에도 불구하고 가우스 뉴턴 방법은 비선형 모델링과 [[매개변수 추정]](parameter estimation) 분야에서 가장 기초적이면서도 강력한 수치적 도구로서 그 위상을 유지하고 있다.
 === 레벤버그 마쿼트 알고리즘 ===
-가우스 뉴턴 방법과 경사 하강법을 결합하여 수렴의 안정성을 높인 알고리즘을 설명한다.
+[[비선형 최소제곱법]]의 반복적 해법 중 하나인 [[가우스 뉴턴 방법]]은 국소 최적해 근처에서 매우 빠른 수렴 속도를 보이지만, 초기 추정치가 최적해에서 멀리 떨어져 있거나 [[야코비 행렬]](Jacobian matrix)이 수치적으로 불안정하여 [[특이 행렬]](Singular matrix)에 가까워질 경우 수렴하지 못하고 발산하는 취약점을 지닌다. 반면 [[경사 하강법]](Gradient Descent)은 목적 함수의 기울기 정보를 이용하여 안정적으로 하강하지만, 최적해에 근접할수록 수렴 속도가 현저히 저하되는 특성이 있다. 이러한 두 방법의 장점을 결합하고 단점을 상호 보완하기 위해 고안된 기법이 [[레벤버그 마쿼트 알고리즘]](Levenberg-Marquardt Algorithm, LMA)이다.
+레벤버그 마쿼트 알고리즘은 케네스 레벤버그(Kenneth Levenberg)가 1944년에 처음 제안하고, 이후 1963년 도널드 마쿼트(Donald Marquardt)가 이를 독자적으로 발전시키며 수치 최적화의 표준적 기법으로 자리 잡았다. 이 알고리즘의 핵심은 매개변수의 업데이트 방향을 결정하는 방정식에 댐핑 매개변수(damping parameter) $ $를 도입하여 가우스 뉴턴 방법과 경사 하강법 사이를 적응적으로 전환하는 것이다. 비선형 모델 $ f(x_i, ) $에 대한 $ n $개의 [[잔차]](residual) 벡터를 $  $이라 하고, 매개변수 $  $에 대한 야코비 행렬을 $  $라고 할 때, LMA의 증분 벡터 $  $는 다음과 같은 감쇠 최소제곱(damped least squares) 방정식을 통해 산출된다.
+$$ (\mathbf{J}^\top \mathbf{J} + \lambda \mathbf{I}) \boldsymbol{\delta} = \mathbf{J}^\top \mathbf{r} $$
+여기서 $  $는 [[단위 행렬]](Identity matrix)이다. 댐핑 인자 $ $는 알고리즘의 거동을 제어하는 핵심적인 역할을 수행한다. 만약 $ $의 값이 매우 크다면, 좌변의 항 중 $  $가 지배적으로 작용하여 업데이트 방향은 경사 하강법의 방향인 $ ^ $에 가까워진다. 이는 현재 지점에서 목적 함수가 감소하는 안전한 방향으로 이동하게 함으로써 초기 추정값이 부정확하거나 모델의 비선형성이 강할 때 알고리즘의 안정성을 보장한다. 반대로 $ $가 0에 가까워지면, 방정식은 가우스 뉴턴 방법의 형태와 일치하게 되어 최적해 근방에서 이차 수렴(quadratic convergence)에 준하는 빠른 속도로 해에 도달하게 된다.
+도널드 마쿼트는 단순히 단위 행렬을 사용하는 대신, 야코비 행렬의 정보를 반영한 대각 행렬을 사용할 것을 제안하며 알고리즘을 개선하였다. 즉, $ (^ + (^))  = ^ $의 형태를 취함으로써, [[매개변수 공간]](Parameter space)에서 곡률이 작은 방향으로는 더 큰 보폭을 갖고 곡률이 큰 방향으로는 신중하게 이동하도록 조정하였다. 이러한 변형은 특히 매개변수 간의 축적(scale) 차이가 크거나 특정 방향으로의 감도가 예민한 문제에서 수렴 성능을 크게 향상시켰다.
+결과적으로 레벤버그 마쿼트 알고리즘은 매 반복 단계마다 목적 함수의 감소 여부를 확인하며 $ $ 값을 동적으로 조정하는 전략을 취한다. 특정 단계에서 목적 함수가 성공적으로 감소하면 $ $를 줄여 가우스 뉴턴의 빠른 수렴 속도를 활용하고, 만약 목적 함수가 오히려 증가한다면 $ $를 늘려 경사 하강법의 안정성을 확보하며 다시 시도한다. 이러한 유연성 덕분에 LMA는 비선형 최소제곱 문제를 해결하기 위한 [[수치 최적화]] 분야에서 가장 신뢰받는 알고리즘이 되었으며, 오늘날 [[컴퓨터 비전]]의 구조 복원, [[신경망]]의 역전파 학습, [[로보틱스]]의 기구학 분석 등 다양한 공학 및 과학 분야에서 광범위하게 활용되고 있다.
 ===== 통계적 성질과 타당성 =====
@@ 줄 305: / 줄 369: @@
 ==== 잔차 분석과 적합도 ====
-결정 계수와 잔차의 분포를 통해 모델이 데이터를 얼마나 잘 설명하는지 평가하는 지표를 다룬다.
+[[최소제곱법]]을 통해 도출된 [[회귀 계수]](Regression Coefficient)는 주어진 데이터 내에서 [[잔차]](Residual)의 제곱합을 최소화하는 수치적 최적해를 제공하지만, 이것이 곧 해당 모델이 현상을 완벽하게 설명하거나 예측의 신뢰성을 보장한다는 의미는 아니다. 따라서 추정된 모델이 관측된 데이터를 얼마나 잘 대변하는지 정량적으로 평가하고, 모델 수립의 전제가 되는 통계적 가정들이 유효한지 검토하는 과정이 필수적이다. 이러한 평가는 크게 모델의 설명력을 측정하는 [[적합도]](Goodness-of-Fit) 지표 분석과 오차의 성질을 규명하는 [[잔차 분석]](Residual Analysis)으로 나뉜다.
+모델의 전체적인 적합도를 평가하는 대표적인 지표는 [[결정 계수]](Coefficient of Determination, $ R^2 $)이다. 결정 계수는 [[종속 변수]](Dependent Variable)의 전체 변동 중 모델에 포함된 [[독립 변수]](Independent Variable)들에 의해 설명되는 변동의 비율을 의미한다. 이를 정의하기 위해 먼저 총 제곱합(Total Sum of Squares, TSS), 회귀 제곱합(Regression Sum of Squares, RSS), 잔차 제곱합(Residual Sum of Squares, SSE) 사이의 관계를 다음과 같이 설정한다.
+$$ TSS = \sum_{i=1}^{n} (y_i - \bar{y})^2, \quad RSS = \sum_{i=1}^{n} (\hat{y}_i - \bar{y})^2, \quad SSE = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 $$
+여기서 $ y_i $는 실제 관측값, $ _i $는 모델에 의한 예측값, $ {y} $는 관측값의 평균이다. 결정 계수 $ R^2 $는 전체 변동 대비 설명된 변동의 비율로 계산되며, 그 값은 항상 0과 1 사이의 범위를 갖는다.
+$$ R^2 = \frac{RSS}{TSS} = 1 - \frac{SSE}{TSS} $$
+$ R^2 $가 1에 가까울수록 모델이 데이터를 잘 설명하고 있음을 의미한다. 그러나 [[다중 회귀 분석]](Multiple Regression Analysis)에서는 모델에 독립 변수를 추가할수록 설명력의 유의성과 관계없이 $ R^2 $ 값이 기계적으로 상승하는 경향이 있다. 이러한 왜곡을 방지하기 위해 [[자유도]](Degrees of Freedom)를 고려하여 보정한 [[수정된 결정 계수]](Adjusted $ R^2 $)를 사용한다. 수정된 결정 계수는 불필요한 변수의 추가에 대해 벌점을 부여함으로써 모델의 효율성을 보다 객관적으로 평가할 수 있게 한다.
+적합도 지표가 모델의 양적인 성능을 나타낸다면, 잔차 분석은 모델의 질적인 타당성을 검증한다. 최소제곱법의 통계적 유효성을 뒷받침하는 [[가우스-마르코프 정리]]는 오차항이 [[독립성]](Independence), [[등분산성]](Homoscedasticity), [[정규성]](Normality)을 만족한다는 가정을 전제로 한다. 잔차는 오차항의 추정치이므로, 잔차의 분포를 통해 이러한 가정들의 충족 여부를 판단한다.
+가장 보편적인 진단 방법은 잔차 산점도(Residual Plot)를 활용하는 것이다. 가로축에 예측값이나 독립 변수를, 세로축에 잔차를 배치했을 때 잔차가 특정 패턴 없이 0을 중심으로 무작위하게 흩어져 있어야 모델의 [[선형성]](Linearity)과 등분산성 가정이 유지되는 것으로 본다. 만약 잔차가 깔때기 모양으로 퍼진다면 이는 오차의 분산이 일정하지 않은 등분산성 위배를 시사하며, 곡선 형태의 패턴이 나타나면 모델이 변수 간의 비선형적 관계를 적절히 포착하지 못했음을 의미한다.
+또한, 오차항의 정규성 가정은 [[Q-Q 플롯]](Quantile-Quantile Plot)을 통해 시각적으로 검토할 수 있다. 관측된 잔차의 분위수와 정규 분포의 이론적 분위수를 대응시켰을 때 데이터 포인트들이 직선상에 위치한다면 정규성 가정이 충족된 것으로 간주한다. 잔차 분석을 통해 발견된 이상 징후는 변수 변환이나 [[가중 최소제곱법]]의 도입 등 모델 수정의 근거가 되며, 최종적으로 모델의 추론 결과에 대한 학술적 신뢰도를 결정짓는 핵심적인 근거가 된다((4.1 - Residuals | STAT 462, https://online.stat.psu.edu/stat462/node/116/
+))((1.5 - The Coefficient of Determination, R^2 | STAT 501, https://online.stat.psu.edu/stat501/book/export/html/890
+)).
 ==== 이상치와 강건성 ====
@@ 줄 361: / 줄 443: @@
 ==== 일반화 최소제곱법 ====
-오차항들 사이에 상관관계가 존재할 때 이를 고려하여 매개변수를 추정하는 기법을 설명한다.
+일반화 최소제곱법(Generalized Least Squares, GLS)은 [[선형 회귀 모델]]에서 오차항들이 서로 독립이 아니거나 분산이 일정하지 않은 경우, 즉 [[이분산성]](Heteroscedasticity)이나 [[자기상관]](Autocorrelation)이 존재할 때 매개변수를 효율적으로 추정하기 위해 고안된 기법이다. 표준적인 [[일반 최소제곱법]](Ordinary Least Squares, OLS)은 오차항이 [[독립 동일 분포]](Independent and Identically Distributed, IID)를 따른다는 가정하에 최적의 성능을 발휘한다. 그러나 실제 데이터 관측 과정에서는 시계열 데이터의 인접한 오차들 사이에 상관관계가 나타나거나, 관측값의 크기에 따라 오차의 변동폭이 달라지는 현상이 빈번하게 발생한다. 이러한 상황에서 OLS를 그대로 적용할 경우, 추정량의 [[불편성]](Unbiasedness)은 유지될 수 있으나 통계적 효율성이 상실되어 최소 분산을 보장하지 못하게 된다.
+일반화 최소제곱법의 수학적 정식화를 위해 다음과 같은 선형 모델을 가정한다. $ y = X+ $ 여기서 $ y $는 $ n  $ 종속 변수 벡터, $ X $는 $ n k $ 설계 행렬, $ $는 추정하고자 하는 매개변수 벡터이다. 이때 오차항 $ $의 기댓값은 0이며, [[공분산 행렬]](Covariance Matrix)은 다음과 같이 정의된다. $$ E[\epsilon\epsilon^T] = \sigma^2 \Omega $$ 일반적인 OLS에서는 $ $가 [[단위 행렬]](Identity Matrix) $ I $인 것으로 간주하지만, GLS에서는 $ $가 대각 성분이 일정하지 않거나(이분산성) 비대각 성분이 0이 아닌(상관성) 임의의 양의 정부호 행렬(Positive Definite Matrix)임을 허용한다.
+GLS의 핵심 원리는 오차항의 공분산 구조를 반영하여 원 데이터를 변환함으로써, 변환된 모델의 오차항이 다시 IID 조건을 만족하도록 만드는 데 있다. $ $가 양의 정부호 행렬이므로, [[촐레스키 분해]](Cholesky Decomposition) 등을 통해 $ ^{-1} = P^T P $를 만족하는 가역 행렬 $ P $를 도출할 수 있다. 원 모델의 양변에 이 변환 행렬 $ P $를 곱하면 다음과 같은 변환된 모델을 얻는다. $ Py = PX+ P$ 이때 새로운 오차항 $ ^* = P$의 공분산 행렬을 계산하면 $ E((* ^{*T})) = P E((T)) P^T = ^2 P P^T = ^2 I $가 되어, 변환된 공간에서는 다시 OLS의 가정이 충족됨을 알 수 있다. 이 변환된 모델에 OLS를 적용하여 잔차 제곱합을 최소화하는 해를 구하면 최종적인 GLS 추정량 $ _{GLS} $가 도출된다. $$ \hat{\beta}_{GLS} = (X^T \Omega^{-1} X)^{-1} X^T \Omega^{-1} y $$
+이러한 GLS 추정량의 통계적 타당성은 [[에이킨의 정리]](Aitken’s Theorem)에 의해 보장된다. [[알렉산더 에이킨]](Alexander Aitken)이 정립한 이 정리에 따르면, 오차항의 공분산 구조 $ $를 알고 있을 때 GLS 추정량은 모든 선형 불편 추정량 중에서 가장 작은 분산을 가지는 [[최적 선형 불편 추정량]](Best Linear Unbiased Estimator, BLUE)이 된다((Aitken’s Generalization of the Gauss-Markov Theorem 1, https://www.cambridge.org/core/journals/econometric-theory/article/abs/aitkens-generalization-of-the-gaussmarkov-theorem1/569B7303569AB7D84610CFC99C64799C
+)). 이는 OLS가 이분산성이나 자기상관이 존재하는 상황에서 더 이상 효율적이지 않다는 점을 시사하며, GLS가 통계적 추론의 정밀도를 높이는 결정적인 도구임을 뒷받침한다.
+실제 학술 연구나 실무적 응용에서는 공분산 행렬 $ $의 구체적인 형태를 사전에 알 수 없는 경우가 많다. 이 경우 데이터로부터 $ $를 먼저 추정한 뒤 이를 GLS 식에 대입하는 [[가능 최소제곱법]](Feasible Generalized Least Squares, FGLS)이 주로 사용된다. GLS는 [[계량경제학]]의 [[시계열 분석]]이나 [[패널 데이터]] 분석에서 오차 구조의 복잡성을 다루는 표준적인 방법론으로 자리 잡고 있으며, 공간 통계학이나 [[측량학]] 등 관측값 간의 지리적·시간적 연관성이 중요한 분야에서 광범위하게 활용된다((Lecture 11: Generalized Least Squares (GLS), https://courses.cit.cornell.edu/econ620/Lec11.pdf
+)).
 ==== 편향 회귀와 규제화 ====
@@ 줄 397: / 줄 489: @@
 ==== 측량학 및 위성 항법 ====
-지표면의 위치 결정 및 위성 신호의 오차 보정 과정에서 수행되는 최소제곱 연산을 설명한다.
+[[측량학]](Surveying) 및 [[측지학]](Geodesy) 분야에서 최소제곱법은 관측값에 포함된 불가피한 [[오차]](Error)를 합리적으로 배분하여 최적의 지형 정보를 도출하는 [[오차론]](Theory of Errors)의 핵심 도구이다. 지표면의 위치를 결정하거나 지구의 형상을 결정할 때, 측량사는 미지점의 좌표를 구하기 위해 필요한 최소한의 관측 수보다 훨씬 많은 [[중복 관측]](Redundant Observation)을 수행한다. 이때 발생하는 기하학적 모순을 해결하고 수학적 일관성을 확보하는 과정을 [[조정]](Adjustment)이라 하며, 최소제곱법은 잔차의 제곱합을 최소화함으로써 가장 확률적으로 높은 최적값을 산출하는 표준적인 방법론을 제공한다.
+[[위성 항법 시스템]](Global Navigation Satellite System, GNSS)에서의 위치 결정 과정은 최소제곱법의 현대적 응용을 보여주는 대표적인 사례이다. GNSS 수신기는 최소 4기 이상의 위성으로부터 신호를 수신하여 자신의 3차원 좌표 $(x, y, z)$와 수신기 시계 오차 $(dt)$라는 네 가지 미지수를 산출한다. 각 위성으로부터 측정된 [[의사 거리]](Pseudorange) $\rho_i$는 다음과 같은 비선형 방정식으로 표현된다.
+$$ \rho_i = \sqrt{(x_i - x)^2 + (y_i - y)^2 + (z_i - z)^2} + c \cdot dt + \epsilon_i $$
+위 식에서 $(x_i, y_i, z_i)$는 $i$번째 위성의 위치이며, $c$는 광속, $\epsilon_i$는 [[전리층]] 및 [[대류권]] 지연, 수신기 잡음 등을 포함한 오차 성분이다. 이 방정식은 미지수 $(x, y, z, dt)$에 대해 비선형 구조를 가지므로, 수신기는 초기 추정값을 설정한 뒤 [[테일러 전개]](Taylor Expansion)를 통해 선형화된 모델을 구성한다. 이후 관측된 의사 거리와 추정된 거리 사이의 차이를 [[잔차]](Residual)로 정의하고, 반복적인 최소제곱 연산을 수행하여 최적의 위치 해를 수렴시킨다.
+위성 항법에서는 모든 관측치의 품질이 동일하지 않다는 점을 고려하여 [[가중 최소제곱법]](Weighted Least Squares, WLS)이 널리 사용된다. 예를 들어, 위성의 고도각이 낮을수록 신호가 대기권을 통과하는 경로가 길어져 [[대기 굴절]](Atmospheric Refraction)이나 [[다중 경로]](Multipath) 오차의 영향이 커진다. 따라서 이러한 저고도 위성 신호에는 낮은 가중치를, 고도각이 높은 위성에는 높은 가중치를 부여하는 가중치 행렬 $W$를 도입함으로써 위치 결정의 정밀도를 향상시킨다. 이때 가중치가 적용된 최적 매개변수 벡터 $\hat{x}$는 다음과 같이 산출된다.
+$$ \hat{x} = (A^T W A)^{-1} A^T W y $$
+여기서 $A$는 선형화된 설계 행렬이며, $y$는 관측값 벡터이다. 이러한 연산 결과로 얻어지는 [[공분산 행렬]](Covariance Matrix)은 추정된 위치의 신뢰도를 평가하는 정량적 척도가 된다. 특히 공분산 행렬의 대각 성분은 [[정밀도 저하율]](Dilution of Precision, DOP) 지표의 산출 근거가 되며, 이는 위성의 기하학적 배치가 위치 결정 정밀도에 미치는 영향을 분석하는 데 활용된다. 결과적으로 최소제곱법은 측량 및 위성 항법 시스템에서 단순한 계산 수단을 넘어, 불확실성이 존재하는 관측 환경 하에서 공간 정보의 신뢰성을 보장하는 수학적 토대 역할을 수행한다.
 ==== 경제학 및 계량 분석 ====
-경제 지표 간의 상관관계를 규명하고 미래 가치를 예측하기 위한 회귀 분석 도구로서의 역할을 다룬다.
+경제학적 현상을 수치적으로 분석하고 규명하는 [[계량경제학]](Econometrics)의 영역에서 최소제곱법은 가장 중추적인 역할을 수행한다. 경제학자들은 이론적으로 도출된 가설을 현실 데이터로 검증하기 위해 [[회귀 분석]](Regression Analysis)을 활용하며, 이때 [[일반 최소제곱법]](Ordinary Least Squares, OLS)은 변수 간의 관계를 정량화하는 표준적인 도구로 사용된다. 특히 [[소비 함수]]나 [[생산 함수]]와 같이 종속 변수와 독립 변수 간의 인과관계를 설정하고, 과거의 데이터를 바탕으로 [[한계 소비 성향]]이나 [[탄력성]]과 같은 핵심 경제 파라미터를 추정하는 데 필수적이다.
+경제 분석에서 최소제곱법은 단순히 변수 사이의 상관관계를 보여주는 것을 넘어, 특정 경제 정책의 효과를 평가하거나 미래의 경제 지표를 예측하는 기초를 제공한다. 예를 들어, [[거시경제학]]에서 [[국내총생산]](GDP)과 [[실업률]]의 관계를 설명하는 [[오쿤의 법칙]]이나, 물가 상승률과 실업률 사이의 상충 관계를 보여주는 [[필립스 곡선]] 등은 모두 최소제곱법을 통한 실증적 분석을 거쳐 그 유효성이 논의된다. 이때 관측된 경제 데이터 $ Y_i $와 독립 변수들의 선형 결합 사이의 오차를 최소화하는 과정은 다음과 같은 수식으로 표현된다.
+$$ Y_i = \beta_0 + \beta_1 X_{1i} + \beta_2 X_{2i} + \dots + \beta_k X_{ki} + \epsilon_i $$
+위 식에서 최소제곱법은 오차항 $ _i $의 제곱합을 최소화하는 계수 $ $들을 찾아냄으로써, 독립 변수가 종속 변수에 미치는 평균적인 영향력을 산출한다. 이러한 추정치는 정부나 중앙은행이 [[통인플레이션]] 목표치를 설정하거나 [[재정 정책]]의 규모를 결정할 때 중요한 판단 근거가 된다.
+그러나 경제 데이터는 자연과학 데이터와 달리 [[시계열]]적 상관관계나 [[이분산성]](Heteroscedasticity)을 갖는 경우가 많아, 단순한 최소제곱법의 적용에는 주의가 요구된다. 경제 지표들은 시간의 흐름에 따라 서로 영향을 주고받는 [[자기상관]](Autocorrelation)의 특성을 보이기 쉬우며, 이는 [[가우스-마르코프 정리]]가 전제하는 오차항의 독립성 가정을 위배할 수 있다. 따라서 현대 계량경제학에서는 이러한 한계를 극복하기 위해 [[일반화 최소제곱법]](Generalized Least Squares, GLS)이나 [[도구 변수]](Instrumental Variables)법 등을 병행하여 추정량의 [[불편성]](Unbiasedness)과 효율성을 확보한다.
+결과적으로 경제학 및 계량 분석에서의 최소제곱법은 복잡한 시장의 메커니즘을 단순화된 수치 모델로 변환하여, 정책 결정자가 객관적이고 과학적인 데이터에 기반해 [[의사결정]]을 내릴 수 있도록 돕는 실증 분석의 토대라 할 수 있다. 이는 [[미시경제학]]적 가계 소비 행태 분석부터 국가 단위의 [[경제 성장]] 모델링에 이르기까지 그 응용 범위가 매우 광범위하다.
 ==== 기계 학습과 인공지능 ====
-데이터 학습 과정에서 손실 함수를 최소화하는 최적화 기법의 근간으로서 최소제곱법의 위상을 고찰한다.
+[[기계 학습]](Machine Learning)과 [[인공지능]](Artificial Intelligence)의 영역에서 [[최소제곱법]]은 데이터를 통해 모델을 학습시키는 최적화 기법의 가장 원초적이면서도 핵심적인 이론적 토대를 형성한다. 현대적인 의미의 기계 학습은 주어진 데이터셋을 가장 잘 설명할 수 있는 모델의 [[매개변수]](Parameter)를 찾아내는 과정으로 정의되며, 이 과정에서 모델의 예측값과 실제 관측값 사이의 차이를 정량화하는 [[손실 함수]](Loss Function)의 설정이 필수적이다. 최소제곱법은 이러한 손실 함수를 [[잔차]]의 제곱합으로 정의함으로써, 복잡한 비선형 시스템이나 대규모 신경망 구조에서도 보편적으로 적용될 수 있는 최적화의 기준점을 제공한다.
+기계 학습의 [[지도 학습]](Supervised Learning) 회귀 문제에서 가장 널리 사용되는 [[평균 제곱 오차]](Mean Squared Error, MSE)는 최소제곱법의 원리를 통계적 학습의 영역으로 직접적으로 확장한 형태이다. $ n $개의 학습 데이터에 대하여, 실제 타겟값 $ y_i $와 모델의 예측값 $ _i $ 사이의 평균 제곱 오차는 다음과 같이 정의된다.
+$$ MSE = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 $$
+이 수식을 최소화하는 것은 기하학적으로 데이터 포인트들과 모델 함수 사이의 유클리드 거리를 최소화하는 것과 같으며, 이는 모델이 데이터의 중심 경향성을 학습하도록 유도한다((Least Squares Method from the View Point of Deep Learning, https://www.scirp.org/journal/paperinformation?paperid=84867
+)). 특히 [[딥러닝]](Deep Learning)의 초기 단계에서 [[신경망]](Neural Network)의 가중치를 업데이트하기 위한 목적 함수로 최소제곱 기준이 채택되었으며, 이는 이후 다양한 형태의 손실 함수가 고안되는 기초가 되었다.
+최소제곱법이 기계 학습에서 강력한 정당성을 갖는 이유는 확률론적 관점에서의 [[최대 우도 추정]](Maximum Likelihood Estimation, MLE)과의 긴밀한 연관성에 있다. 만약 모델의 예측 오차가 서로 독립이며 동일한 [[가우시안 분포]](Gaussian Distribution)를 따른다고 가정할 경우, 데이터에 대한 로그 우도(Log-likelihood)를 최대화하는 문제는 수학적으로 잔차의 제곱합을 최소화하는 문제와 완전히 동일해진다((Gauss on least-squares and maximum-likelihood estimation, https://link.springer.com/content/pdf/10.1007/s00407-022-00291-w.pdf
+)). 이러한 통계적 동치성은 최소제곱법이 단순한 수치적 기법을 넘어, 데이터에 내재된 [[노이즈]](Noise)를 확률적으로 처리하는 합리적인 추론 방식임을 뒷받침한다.
+대규모 데이터를 다루는 현대 인공지능 환경에서는 [[정규 방정식]]을 통해 해를 직접 구하는 방식보다 [[경사 하강법]](Gradient Descent)과 같은 반복적 최적화 알고리즘이 주로 사용된다. 최소제곱 목적 함수는 매개변수에 대해 [[볼록 함수]](Convex Function)의 특성을 갖는 경우가 많아, 경사 하강법을 통해 전역 최적해(Global Optimum)에 안정적으로 수렴할 수 있는 장점을 제공한다. 또한, 모델의 복잡도가 증가함에 따라 발생하는 [[과적합]](Overfitting) 문제를 해결하기 위해 최소제곱 함수에 L2 [[규제화]](Regularization) 항을 추가한 [[릿지 회귀]](Ridge Regression) 등은 현대 기계 학습 모델의 일반화 성능을 높이는 핵심적인 기법으로 자리 잡았다((Scaled Least Squares Estimator for GLMs in Large-Scale Problems, https://proceedings.neurips.cc/paper_files/paper/2016/file/e1696007be4eefb81b1a1d39ce48681b-Paper.pdf
+)).
+결과적으로 최소제곱법은 고전적인 통계 분석의 도구에서 진화하여, 현대 인공지능의 복잡한 모델들이 데이터를 통해 지식을 습득하고 성능을 최적화하는 과정의 근간을 이루는 보편적 원리로 작용하고 있다.

SethQ Wiki

사용자 도구

사이트 도구

차이

문서 도구