| 양쪽 이전 판이전 판 | |
| 최소제곱법 [2026/04/14 18:42] – 최소제곱법 sync flyingtext | 최소제곱법 [2026/04/14 18:45] (현재) – 최소제곱법 sync flyingtext |
|---|
| ==== 기계 학습과 인공지능 ==== | ==== 기계 학습과 인공지능 ==== |
| |
| 데이터 학습 과정에서 손실 함수를 최소화하는 최적화 기법의 근간으로서 최소제곱법의 위상을 고찰한다. | [[기계 학습]](Machine Learning)과 [[인공지능]](Artificial Intelligence)의 영역에서 [[최소제곱법]]은 데이터를 통해 모델을 학습시키는 최적화 기법의 가장 원초적이면서도 핵심적인 이론적 토대를 형성한다. 현대적인 의미의 기계 학습은 주어진 데이터셋을 가장 잘 설명할 수 있는 모델의 [[매개변수]](Parameter)를 찾아내는 과정으로 정의되며, 이 과정에서 모델의 예측값과 실제 관측값 사이의 차이를 정량화하는 [[손실 함수]](Loss Function)의 설정이 필수적이다. 최소제곱법은 이러한 손실 함수를 [[잔차]]의 제곱합으로 정의함으로써, 복잡한 비선형 시스템이나 대규모 신경망 구조에서도 보편적으로 적용될 수 있는 최적화의 기준점을 제공한다. |
| | |
| | 기계 학습의 [[지도 학습]](Supervised Learning) 회귀 문제에서 가장 널리 사용되는 [[평균 제곱 오차]](Mean Squared Error, MSE)는 최소제곱법의 원리를 통계적 학습의 영역으로 직접적으로 확장한 형태이다. $ n $개의 학습 데이터에 대하여, 실제 타겟값 $ y_i $와 모델의 예측값 $ _i $ 사이의 평균 제곱 오차는 다음과 같이 정의된다. |
| | |
| | $$ MSE = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 $$ |
| | |
| | 이 수식을 최소화하는 것은 기하학적으로 데이터 포인트들과 모델 함수 사이의 유클리드 거리를 최소화하는 것과 같으며, 이는 모델이 데이터의 중심 경향성을 학습하도록 유도한다((Least Squares Method from the View Point of Deep Learning, https://www.scirp.org/journal/paperinformation?paperid=84867 |
| | )). 특히 [[딥러닝]](Deep Learning)의 초기 단계에서 [[신경망]](Neural Network)의 가중치를 업데이트하기 위한 목적 함수로 최소제곱 기준이 채택되었으며, 이는 이후 다양한 형태의 손실 함수가 고안되는 기초가 되었다. |
| | |
| | 최소제곱법이 기계 학습에서 강력한 정당성을 갖는 이유는 확률론적 관점에서의 [[최대 우도 추정]](Maximum Likelihood Estimation, MLE)과의 긴밀한 연관성에 있다. 만약 모델의 예측 오차가 서로 독립이며 동일한 [[가우시안 분포]](Gaussian Distribution)를 따른다고 가정할 경우, 데이터에 대한 로그 우도(Log-likelihood)를 최대화하는 문제는 수학적으로 잔차의 제곱합을 최소화하는 문제와 완전히 동일해진다((Gauss on least-squares and maximum-likelihood estimation, https://link.springer.com/content/pdf/10.1007/s00407-022-00291-w.pdf |
| | )). 이러한 통계적 동치성은 최소제곱법이 단순한 수치적 기법을 넘어, 데이터에 내재된 [[노이즈]](Noise)를 확률적으로 처리하는 합리적인 추론 방식임을 뒷받침한다. |
| | |
| | 대규모 데이터를 다루는 현대 인공지능 환경에서는 [[정규 방정식]]을 통해 해를 직접 구하는 방식보다 [[경사 하강법]](Gradient Descent)과 같은 반복적 최적화 알고리즘이 주로 사용된다. 최소제곱 목적 함수는 매개변수에 대해 [[볼록 함수]](Convex Function)의 특성을 갖는 경우가 많아, 경사 하강법을 통해 전역 최적해(Global Optimum)에 안정적으로 수렴할 수 있는 장점을 제공한다. 또한, 모델의 복잡도가 증가함에 따라 발생하는 [[과적합]](Overfitting) 문제를 해결하기 위해 최소제곱 함수에 L2 [[규제화]](Regularization) 항을 추가한 [[릿지 회귀]](Ridge Regression) 등은 현대 기계 학습 모델의 일반화 성능을 높이는 핵심적인 기법으로 자리 잡았다((Scaled Least Squares Estimator for GLMs in Large-Scale Problems, https://proceedings.neurips.cc/paper_files/paper/2016/file/e1696007be4eefb81b1a1d39ce48681b-Paper.pdf |
| | )). |
| | |
| | 결과적으로 최소제곱법은 고전적인 통계 분석의 도구에서 진화하여, 현대 인공지능의 복잡한 모델들이 데이터를 통해 지식을 습득하고 성능을 최적화하는 과정의 근간을 이루는 보편적 원리로 작용하고 있다. |
| |