표본, MLE, MAP: 머신러닝 확률통계 3장
2장에서는 분포를 기술하는 통계량과 다변수 분포를 배웠습니다. 이번 글에서는 표본으로 모집단을 추정하는 방법론, 그리고 머신러닝에서 핵심인 MLE와 MAP를 다룹니다.
이 글은 DeepLearning.AI의 Mathematics for Machine Learning and Data Science — Probability & Statistics 2주차 내용을 기반으로 정리했습니다.
이번 글에서 배우는 것#
- 모집단 vs 표본 — 무엇을, 왜 구별하는가
- 표본 평균·비율·분산 — 불편 추정량
- 대수의 법칙 — 표본이 많을수록 정확해지는 이유
- 중심극한정리 (CLT) — 어떤 분포도 샘플을 충분히 모으면 정규 분포
- MLE — 데이터를 가장 잘 설명하는 파라미터 찾기
- MAP — 사전 정보를 결합한 MLE
- 정규화 — MAP와 L2 정규화의 연결
모집단과 표본#
핵심 개념#
| 용어 | 정의 |
|---|---|
| 모집단 (Population) | 연구 대상 전체 집합 |
| 표본 (Sample) | 모집단에서 무작위로 추출한 일부 |
| 모수 (Parameter) | 모집단의 특성값 (, ) |
| 통계량 (Statistic) | 표본으로 계산한 추정값 (, ) |
왜 표본을 쓰는가? 모집단 전체를 조사하는 것은 불가능하거나 비용이 너무 크므로, 무작위 표본으로 모집단을 추정합니다.
좋은 표본의 조건 (i.i.d.):
- 독립성: 각 관측값이 서로 영향을 주지 않음
- 동일 분포: 모두 같은 분포에서 추출
표본 평균 (Sample Mean)#
- 모집단 평균 의 불편 추정량 (편향 없음)
- 표본이 클수록
표본 분산 (Sample Variance)#
왜 인가? (베셀 보정): 으로 나누면 모집단 분산을 과소 추정합니다. 평균 추정에 자유도 1이 소모되므로 로 나눠야 불편 추정량이 됩니다.
MLE로 구한 분산 추정량은 을 사용해 편향이 있습니다. 실무에서 표본 분산을 쓸 때는 을 씁니다.
대수의 법칙 (Law of Large Numbers)#
표본 크기 이 커질수록 표본 평균이 모집단 평균에 수렴합니다.
예시: 동전을 던질 때 처음 몇 번은 앞면 비율이 0.3, 0.7 등으로 변동이 심하지만, 수천 번이 되면 0.5에 수렴합니다.
머신러닝 의미: 학습 데이터가 많을수록 모델이 실제 데이터 분포를 더 잘 학습할 수 있습니다.
중심극한정리 (Central Limit Theorem, CLT)#
핵심 내용#
원래 분포의 모양과 관계없이, 독립적이고 동일하게 분포된 확률 변수 의 표본 평균은 이 충분히 클 때 정규 분포에 수렴합니다.
표준화:
핵심 포인트#
| 항목 | 값 |
|---|---|
| CLT 적용 최소 표본 수 | 일반적으로 |
| 원래 분포가 대칭이면 | 더 적은 으로도 수렴 |
| 원래 분포가 치우치면 | 더 많은 필요 |
왜 표준화가 필요한가?: 표본 평균의 분산이 으로 에 따라 변해 비교가 어렵기 때문입니다.
실무 의미: 어떤 분포에서 데이터를 뽑아도, 충분히 많은 표본에서 구한 통계량은 정규 분포를 따릅니다. 이것이 신뢰 구간, 가설 검정의 이론적 기반입니다.
최대 우도 추정 (MLE, Maximum Likelihood Estimation)#
핵심 아이디어#
관측 데이터를 가장 그럴듯하게 생성했을 파라미터를 찾는 방법입니다.
관측 데이터의 우도(Likelihood) 를 최대화하는 를 찾습니다.
베르누이 MLE 예시#
동전을 10번 던져 앞면 8번 관측:
로그 변환 (곱 → 합):
미분하여 최솟값:
결론: MLE 추정값 = 관측 빈도 (직관적으로 납득되는 결과)
가우시안 MLE#
개 샘플 이 에서 왔을 때:
평균의 MLE:
분산의 MLE:
MLE 분산 추정량은 을 사용해 편향(biased) 이 있습니다 (표본 분산 는 로 불편).
선형 회귀와 MLE#
선형 회귀 () 에서:
우도를 최대화하는 를 찾는 것 =
결론: 정규 분포 가정 하에 MLE = 최소제곱법(Least Squares)
정규화 (Regularization)#
과적합 문제#
모델이 너무 복잡하면 학습 데이터에 과적합(overfitting)되어 새 데이터에서 성능이 떨어집니다.
해결책: 복잡한 모델에 패널티(penalty) 를 부여합니다.
L2 정규화 (Ridge):
- 계수가 클수록 큰 패널티
- 모든 계수를 0 방향으로 축소 (완전히 0으로 만들지는 않음)
L1 정규화 (Lasso): 계수의 절댓값 합 → 일부 계수를 정확히 0으로 만들어 변수 선택 효과
하이퍼파라미터 : 패널티 강도를 조절합니다. 가 크면 더 단순한 모델, 작으면 원래 모델과 비슷합니다.
MAP와 베이즈 통계#
빈도주의 vs 베이즈주의#
| 빈도주의 (Frequentist) | 베이즈주의 (Bayesian) | |
|---|---|---|
| 파라미터 관점 | 고정된 미지의 값 | 불확실성을 가진 확률 변수 |
| 추정 방법 | MLE | 사전확률 + 데이터 → 사후확률 |
| 결과 | 점 추정값 | 분포 |
MAP (Maximum A Posteriori)#
MLE + 사전 정보(Prior):
- 사전확률이 균등 분포 → MAP = MLE
- 사전확률이 정보적(informative) → 사전 지식이 추정에 반영
MAP와 L2 정규화의 관계#
에 대한 사전확률로 을 가정하면:
MAP 최대화 = MLE 손실 최소화 + 패널티
결론: L2 정규화 = 가우시안 사전확률을 가진 MAP 추정입니다.
사전확률 업데이트 (Prior → Posterior)#
베이즈 통계의 핵심: 새 데이터를 관측할 때마다 사전확률을 업데이트합니다.
순서적 업데이트: 이전 사후확률이 다음 사전확률이 됩니다.
데이터를 한꺼번에 보든, 순서대로 보든 최종 사후확률은 동일합니다.
MAP 선택: 사후 분포의 최빈값(mode)을 점 추정값으로 사용합니다.
MLE vs MAP 비교 요약#
| MLE | MAP | |
|---|---|---|
| 사전 정보 사용 | ❌ | ✅ |
| 등가 | 최소제곱법 | L2/L1 정규화 |
| 데이터 적을 때 | 과적합 위험 | 사전 정보로 안정 |
| 데이터 많을 때 | MLE ≈ MAP | 사전 정보 영향 줄어듦 |
| 결과 | 점 추정 | 점 추정 (사후 분포의 최빈값) |
핵심 정리#
| 개념 | 설명 |
|---|---|
| 모집단/표본 | 전체/부분 집합, i.i.d. 조건 |
| 표본 분산 | 로 불편 추정 |
| 대수의 법칙 | 증가 → 표본 평균 → 모평균 |
| 중심극한정리 | → 표본 평균 ~ 정규 분포 |
| MLE | 우도 최대화 = 관측 빈도 / 최소제곱법 |
| MAP | 우도 × 사전확률 최대화 = MLE + 정규화 |
| L2 정규화 | 가우시안 사전확률 MAP와 동치 |
퀴즈#
Q1. 표본 분산에서 대신 로 나누는 이유는?
정답 보기
베셀 보정(Bessel's Correction): 표본에서 평균을 먼저 추정하면 자유도가 1 감소합니다.
으로 나누면 모집단 분산을 과소 추정합니다. 로 나누면 편향이 없는 불편 추정량을 얻습니다.
직관: 표본 내 데이터가 표본 평균 주변에 가깝게 몰리는 경향이 있어 실제 모집단의 퍼짐을 과소평가하게 됩니다.
Q2. 중심극한정리에 대한 설명으로 옳은 것은?
- 원래 분포가 정규 분포여야 한다
- 표본 크기가 크면 표본 평균의 분포가 정규 분포에 가까워진다
- 표본 크기가 커지면 모집단 분산이 줄어든다
- 표본 평균은 항상 모평균과 같다
정답 보기
2번
- 1번 ❌: 원래 분포가 무엇이든 적용됩니다
- 2번 ✅: CLT의 핵심 내용
- 3번 ❌: 표본 평균의 분산이 으로 줄어드는 것이지, 모집단 분산은 변하지 않습니다
- 4번 ❌: 표본 평균은 확률적으로 모평균에 수렴하지만 항상 같지는 않습니다
Q3. 동전을 10번 던져 앞면이 7번 나왔습니다. MLE로 추정한 앞면 확률 는?
정답 보기
MLE 추정값 = 관측 빈도입니다.
Q4. MLE와 MAP의 차이를 설명하고, L2 정규화와의 연결을 말하세요.
정답 보기
- MLE: 데이터만으로 우도 를 최대화
- MAP: 사전확률 도 반영해 를 최대화
파라미터 에 가우시안 사전확률 을 가정하면:
이는 L2 정규화(Ridge) 와 정확히 같은 형태입니다.
→ L2 정규화 = 가우시안 사전확률을 가정한 MAP 추정
Q5. 다음 중 대수의 법칙과 중심극한정리의 차이로 옳은 것은?
- 대수의 법칙은 표본 평균의 분포 모양을, CLT는 수렴 속도를 설명한다
- 대수의 법칙은 표본 평균이 모평균에 수렴함을, CLT는 표본 평균의 분포가 정규 분포에 수렴함을 설명한다
- 대수의 법칙은 연속형에만, CLT는 이산형에만 적용된다
정답 보기
2번
- 대수의 법칙: 일 때 — 표본 평균의 값이 모평균에 가까워짐
- CLT: 이 크면 의 분포가 정규 분포 에 가까워짐
두 정리는 서로 다른 측면을 설명합니다. 대수의 법칙은 수렴을, CLT는 수렴하는 분포의 형태를 말합니다.
다음 글에서는 구간 추정(Confidence Interval) 과 가설 검정(Hypothesis Testing) — 추정의 불확실성을 정량화하는 방법을 다룰 예정입니다.
관련 포스트
확률·통계 실무 개념 과제: ML 현장에서 마주치는 추론 문제들
확률 기초, 베이즈 정리, 분포, MLE/MAP, 신뢰구간, 가설검정까지 — 머신러닝 실무 시나리오로 배우는 확률통계 개념 과제 모음입니다.
확률·통계 코딩 과제: Python으로 구현하는 ML 통계 도구
베이즈 업데이트, 분포 시뮬레이션, CLT 검증, MLE/MAP 구현, 신뢰구간, 가설검정, A/B 테스트 파이프라인까지 — 확률통계 1~4장을 코드로 구현합니다.
신뢰구간과 가설검정: 머신러닝 확률통계 4장
신뢰구간의 개념과 계산, t분포, 가설검정의 원리(귀무/대립가설, p값, 기각역, 검정력), 다양한 t검정과 A/B 테스트까지 정리했습니다.