손실 함수와 최소제곱법, 그리고 최대가능도법의 관계
모델에 잘 들어맞는 parameter를 추정하는 방법에는 최대가능도법(MLE)과 손실 최소화 방식이 있다.
최대가능도법(Maximum Likelihood Estimation, MLE)은 모델이 주어진 데이터를 얼마나 잘 설명하는지를 가능도(likelihood)라는 수치로 나타내고, 이 수치를 가장 크게 만드는 parameter를 추정하는 방법이다. 반면, 손실 최소화 방식은 기계학습에서 널리 사용되며, 모델과 실제 값 사이의 차이(Loss)를 최소화하는 방향으로 parameter를 찾는다.
손실 함수란 무엇인가
손실 함수(Loss Function)는 parameter를 추정할 때 손실을 정의하고, 그 손실을 최소화하도록 parameter를 선택하는 함수다. 오차 함수(Error Function) 또는 목적 함수(Objective Function)라고도 부른다.
그렇다면 손실을 어떻게 정의하는 것이 바람직할까?
잔차의 합은 왜 부적절한가
잔차(residual)는 실제 종속변수의 값과 예측된 값의 차이를 말한다. 직관적으로 잔차들의 합을 손실로 쓸 수 있을 것 같지만, 다음과 같은 이유로 적절하지 않다.
- 양수와 음수가 상쇄된다
예측 오차가 +100, -100이면 합은 0이지만 실제론 큰 오차 두 개가 존재하는 상황이다. - 오차의 크기를 반영하지 못한다
단순 합으로는 크기가 반영되지 않아 모델의 성능을 정확히 평가하기 어렵다.
이러한 문제를 해결하기 위해 잔차의 절댓값이나 제곱을 손실로 사용한다. 그중에서도 제곱합은 수학적으로 다루기 쉬워 가장 널리 쓰인다. 이를
잔차 제곱합(Residual Sum of Squares, RSS)이라고 한다.
최소제곱법과 MSE
최소제곱법(Ordinary Least Squares)은 잔차의 제곱합을 최소화하는 parameter를 선택하는 방식이다. 이는 통계 모델뿐 아니라 기계학습에서도 많이 사용되며, 머신러닝에서는 같은 개념을
평균 제곱 오차(Mean Squared Error, MSE)라고 부른다.
즉, MSE는 최소제곱법을 기반으로 한 대표적인 손실 함수다.
최소제곱법과 최대가능도법의 관계
최소제곱법과 최대가능도법은 별개처럼 보이지만, 모집단이 정규 분포를 따른다고 가정하면 두 방법의 추정 결과는 동일해진다.
즉, 정규 분포 하에서는 최소제곱법이 가능도를 최대화하는 추정법과 같아진다.
이는 최소제곱법이 효율적이면서도 통계적 정당성을 가진다는 점에서 중요한 의미를 가진다.
오차 함수는 로그 가능도의 부호
기계 학습에서는 손실 함수를 종종 오차 함수(Error Function)라고 부르며, 이는 사실상 로그 가능도의 부호를 바꾼 것이다. 로그 가능도는 클수록 좋기 때문에, 이를 최소화하는 오차 함수는 곧 가능도를 최대화하는 것과 같다.
따라서 손실을 정의할 때 잔차 제곱합을 사용하면, 정규 선형 모델 하에서는 최대가능도법과 동일한 결과를 도출할 수 있다.
그러나 모든 상황에 적용되지는 않는다
다만, 정규 분포 가정이 성립하지 않을 경우, 손실 최소화 방법과 최대가능도법이 서로 다른 추정 결과를 낼 수 있다. 따라서 상황에 따라 손실 함수의 정의와 추정 방법의 선택은 신중하게 이루어져야 한다.
'확률과 통계' 카테고리의 다른 글
가능도와 최대가능도추정법(MLE)의 개념과 특징 (0) | 2025.05.21 |
---|---|
정규 선형 모델 이해하기: 선형 모델, 회귀, 분산 분석, 기계학습 관점까지 (0) | 2025.05.17 |
통계 모델의 기초: 모수적 모델, 선형 모델, 변수 선택 (0) | 2025.05.17 |
통계 모델링 | 수학적 모델, 확률 모델, 통계 모델 쉽게 이해하기 (0) | 2025.05.16 |
적합도, 교차검증, AIC, 상대엔트로피까지 — 모델 평가 핵심 개념 정리 (0) | 2025.05.12 |