종속 변수와 독립 변수
종속 변수(dependent variable)란 어떤 요인에 따라서 변하는 변수이다.
독립 변수(independent variable)란 다른 요인에 영향을 받지 않는 변수이다.
따라서, 종속 변수는 독립 변수에 의해 변화하고, 독립 변수는 종속 변수의 변화를 설명한다.
예를 들어, 기온, 날씨, 가격에 따라서 음료수의 매출이 변화하는 상황을 모델로 표현하게 된다면, 변화하게 되는 음료수의 매출은 종속 변수이며, 음료수의 매출의 변화를 설명하는 기온, 날씨, 가격은 독립 변수이다.
모수적 모델
모수적(parametric) 모델은 데이터 분포를 정규 분포, 이항 분포 등의 형태로 가정하고, 주어진 데이터로 분포의 parameter를 추정하는 것이다. 모델을 추정하는 방법이 parameter을 결정하는 것이므로 추정이 용이하다. 식의 형태도 단순하여 해석도 용이하다.
비모수적(non-parametric) 모델은 가정 없이, 그냥 데이터로부터 직접 확률 밀도를 추정하는 것이다. 히스토그램을 떠올리면 편하다.
선형 모델
선형 모델(linear model)은 종속 변수와 독립 변수의 관계가 선형 관계인 모델이다.
선형 관계란 그래프로 그렸을 때 직선으로 나타나는 관계로 수식 관점에서 봤을 때 어느 지점이든지 상관없이 독립 변수가 종속 변수에 일정한 영향을 주는 관계이다.
예를 들어
음료수의 매출 = 15 + 4 × 기온
이라면, 기온이 몇 도이든지 상관없이 + 4만큼 곱해져 영향을 준다. 따라서 위 모델에서 기온과 음료수 매출의 관계는 선형 관계이고 위 모델은 선형 관계이다.
이때 + 4가 계수가 된다.
계수(Coefficient)란 통계 모델에 사용되는 parameter이다. 위의 모델에서는 + 4 뿐만 아니라 (+) 15도 계수이다.
위 수학적 모델을 확률 모델로 변형하면
음료수 매출 ~ N(β0 + β1 × 기온, σ²)
이 된다. 여기서 계수인 β0, β1과 독립 변수가 있으면 정규 분포의 평균을 추측할 수 있다. 계수에 대해 더 자세히 살펴보면 β0은 절편 β1은 회귀 계수라고 한다. 기계 학습에서는 계수가 아니라 가중치(weight)라고 표현한다.
모델 구축
모델을 만들기 위한 절차는 다음과 같다.
1. 모델의 구조를 수식으로 표현한다.
2. 그 수식의 parameter를 추정한다.
위의 음료수 매출 예시로 살펴보자.
1. 기온 변화에 따라서 음료수 매출이 변화하는 구조를 수식으로 표현해야 한다.
음료수 매출 = β0 + β1 × 기온
이라는 선형 모델로 표현해보자.
2. Parmeter를 추정해야 한다. 즉, β0와 β1을 추정해야 한다. 데이터를 통해서 기온 1도의 차이가 음료수 매출에 얼마나 영향을 주는지 파악하고, 절편은 얼마인지 추정한다. 예를 들어 1도 상승할 때 3만원이 늘어나면 β1는 3이 된다. 그리고 20도일 때 매출이 75만원이라면 절편은 15가 된다.
음료수 매출 = 15 + 3 × 기온
매출이 늘 일정하지 않으므로 위 수학적 모델을 평균으로 매일 편차가 있으므로
음료수 매출 ~ N(15 + 3 × 기온, σ²)
이 된다.
만약 이렇게 모델을 구축했는데 예측 정밀도가 낮다면, 구조 자체가 잘못됐든지 아니면 parameter 추정 단계에서 문제가 생긴 것이다. 이 때 간단한 확률 분포를 이용한다면 parameter 추정 단계에서 문제가 생길 가능성이 낮다. 반면 기계 학습 등 복잡한 방법에서는 parameter 추정에 실패할 가능성이 높다.
그렇다면 어떻게 개선해야 할까? 구조에 문제가 있다면
1. 확률 분포를 바꾼다.
2. 독립 변수를 바꾼다.
등의 두 가지 방법이 있고, parameter 추정 단계에 문제가 있다면 데이터를 통해 다시 parameter를 추정해야 한다. 확률 분포는 워낙 직관적이고, parameter 추정은 데이터로 최적화할 수 있다. 그럼 변수 선택은 어떻게 해야 할까? 이제부터 알아보자.
변수 선택
변수 선택에 앞서 가능한 모든 변수 조합을 생각해본다. 음료수 매출 예시에서
음료수 매출 ~ Null
음료수 매출 ~ 기온
음료수 매출 ~ 날씨
음료수 매출 ~ 가격
음료수 매출 ~ 기온 + 날씨
음료수 매출 ~ 기온 + 가격
음료수 매출 ~ 날씨 + 가격
음료수 매출 ~ 기온 + 날씨 + 가격
등이 가능하다. 이 중 최적의 하나의 조합을 선택하면 된다.
그렇다면 최적의 기준은 무엇인가?
1. 통계적 가설 검정
첫 번째 방법은 통계적 가설 검정을 이용하는 것이다.
음료수 매출 ~ N(β0 + β1 × 기온, σ²)
에서 귀무 가설은 독립 변수의 계수인 β1은 0이다.
이고 대립 가설은 독립 변수의 계수인 β1은 0이 아니다.
이다. 이때 귀무 가설이 기각된다면 기온에 대한 계수가 0이 아니라고 판단한 것이다. 한마디로 모델에 기온이라는 독립 변수가 필요하다는 판단이다.
귀무 가설이 기각되지 않는다면 모델은 간단할수록 좋기 때문에 독립 변수를 모델에서 제거한다.
2. 정보 기준
두번째 방법은 정보기준을 이용하는 것이다. 정보기준(Information Criterion)이란 추정된 모델의 좋은 정도를 정량화 한 것이다. Akaike’s Information Criterion(AIC)가 대표적이다. AIC가 작을수록 좋은 모델이다. 따라서 위의 모든 조합에서 AIC를 구해 비교하여 가장 작은 모델을 고르면 된다.
'확률과 통계' 카테고리의 다른 글
손실 함수와 최소제곱법, 그리고 최대가능도법의 연결고리 (1) | 2025.05.21 |
---|---|
가능도와 최대가능도추정법(MLE)의 개념과 특징 (0) | 2025.05.21 |
정규 선형 모델 이해하기: 선형 모델, 회귀, 분산 분석, 기계학습 관점까지 (0) | 2025.05.17 |
통계 모델링 | 수학적 모델, 확률 모델, 통계 모델 쉽게 이해하기 (0) | 2025.05.16 |
적합도, 교차검증, AIC, 상대엔트로피까지 — 모델 평가 핵심 개념 정리 (0) | 2025.05.12 |