표본, MLE, MAP: 머신러닝 확률통계 3장

2장에서는 분포를 기술하는 통계량과 다변수 분포를 배웠습니다. 이번 글에서는 표본으로 모집단을 추정하는 방법론, 그리고 머신러닝에서 핵심인 MLE와 MAP를 다룹니다.

이 글은 DeepLearning.AI의 Mathematics for Machine Learning and Data Science — Probability & Statistics 2주차 내용을 기반으로 정리했습니다.

이번 글에서 배우는 것#

모집단 vs 표본 — 무엇을, 왜 구별하는가
표본 평균·비율·분산 — 불편 추정량
대수의 법칙 — 표본이 많을수록 정확해지는 이유
중심극한정리 (CLT) — 어떤 분포도 샘플을 충분히 모으면 정규 분포
MLE — 데이터를 가장 잘 설명하는 파라미터 찾기
MAP — 사전 정보를 결합한 MLE
정규화 — MAP와 L2 정규화의 연결

모집단과 표본#

핵심 개념#

용어	정의
모집단 (Population)	연구 대상 전체 집합
표본 (Sample)	모집단에서 무작위로 추출한 일부
모수 (Parameter)	모집단의 특성값 ( $\mu$ , $\sigma^2$ )
통계량 (Statistic)	표본으로 계산한 추정값 ( $\bar{x}$ , $s^2$ )

왜 표본을 쓰는가? 모집단 전체를 조사하는 것은 불가능하거나 비용이 너무 크므로, 무작위 표본으로 모집단을 추정합니다.

좋은 표본의 조건 (i.i.d.):

독립성: 각 관측값이 서로 영향을 주지 않음
동일 분포: 모두 같은 분포에서 추출

표본 평균 (Sample Mean)#

$\bar{x} = \frac{1}{n} \sum_{i=1}^n x_i$

모집단 평균 $\mu$ 의 불편 추정량 (편향 없음)
표본이 클수록 $\bar{x} \to \mu$

표본 분산 (Sample Variance)#

$s^2 = \frac{1}{n-1} \sum_{i=1}^n (x_i - \bar{x})^2$

왜 $n-1$ 인가? (베셀 보정): $n$ 으로 나누면 모집단 분산을 과소 추정합니다. 평균 추정에 자유도 1이 소모되므로 $n-1$ 로 나눠야 불편 추정량이 됩니다.

MLE로 구한 분산 추정량은 $\frac{1}{n}$ 을 사용해 편향이 있습니다. 실무에서 표본 분산을 쓸 때는 $\frac{1}{n-1}$ 을 씁니다.

대수의 법칙 (Law of Large Numbers)#

표본 크기 $n$ 이 커질수록 표본 평균이 모집단 평균에 수렴합니다.

$\bar{x}_n \xrightarrow{n \to \infty} \mu$

예시: 동전을 던질 때 처음 몇 번은 앞면 비율이 0.3, 0.7 등으로 변동이 심하지만, 수천 번이 되면 0.5에 수렴합니다.

머신러닝 의미: 학습 데이터가 많을수록 모델이 실제 데이터 분포를 더 잘 학습할 수 있습니다.

중심극한정리 (Central Limit Theorem, CLT)#

핵심 내용#

원래 분포의 모양과 관계없이, 독립적이고 동일하게 분포된 확률 변수 $X_1, X_2, \ldots, X_n$ 의 표본 평균은 $n$ 이 충분히 클 때 정규 분포에 수렴합니다.

$\bar{X}_n \sim N\left(\mu, \frac{\sigma^2}{n}\right) \quad \text{(n이 클 때)}$

표준화:

$Z_n = \frac{\bar{X}_n - \mu}{\sigma / \sqrt{n}} \xrightarrow{n \to \infty} N(0, 1)$

핵심 포인트#

항목	값
CLT 적용 최소 표본 수	일반적으로 $n \geq 30$
원래 분포가 대칭이면	더 적은 $n$ 으로도 수렴
원래 분포가 치우치면	더 많은 $n$ 필요

왜 표준화가 필요한가?: 표본 평균의 분산이 $\frac{\sigma^2}{n}$ 으로 $n$ 에 따라 변해 비교가 어렵기 때문입니다.

실무 의미: 어떤 분포에서 데이터를 뽑아도, 충분히 많은 표본에서 구한 통계량은 정규 분포를 따릅니다. 이것이 신뢰 구간, 가설 검정의 이론적 기반입니다.

최대 우도 추정 (MLE, Maximum Likelihood Estimation)#

핵심 아이디어#

관측 데이터를 가장 그럴듯하게 생성했을 파라미터를 찾는 방법입니다.

$\hat{\theta}_{\text{MLE}} = \arg\max_\theta P(\text{data} \mid \theta) = \arg\max_\theta L(\theta)$

관측 데이터의 우도(Likelihood) 를 최대화하는 $\theta$ 를 찾습니다.

베르누이 MLE 예시#

동전을 10번 던져 앞면 8번 관측:

$L(p) = p^8 (1-p)^2$

로그 변환 (곱 → 합):

$\log L(p) = 8\log p + 2\log(1-p)$

미분하여 최솟값:

$\frac{d \log L}{dp} = \frac{8}{p} - \frac{2}{1-p} = 0 \quad \Rightarrow \quad \hat{p} = \frac{8}{10} = 0.8$

결론: MLE 추정값 = 관측 빈도 (직관적으로 납득되는 결과)

가우시안 MLE#

$n$ 개 샘플 $x_1, \ldots, x_n$ 이 $N(\mu, \sigma^2)$ 에서 왔을 때:

평균의 MLE:

$\hat{\mu}_{\text{MLE}} = \frac{1}{n} \sum_{i=1}^n x_i = \bar{x}$

분산의 MLE:

$\hat{\sigma}^2_{\text{MLE}} = \frac{1}{n} \sum_{i=1}^n (x_i - \bar{x})^2$

MLE 분산 추정량은 $\frac{1}{n}$ 을 사용해 편향(biased) 이 있습니다 (표본 분산 $s^2$ 는 $\frac{1}{n-1}$ 로 불편).

선형 회귀와 MLE#

선형 회귀 $y = wx + b + \epsilon$ ( $\epsilon \sim N(0, \sigma^2)$ ) 에서:

$P(y_i \mid x_i, w, b) = N(wx_i + b, \sigma^2)$

우도를 최대화하는 $w, b$ 를 찾는 것 =

$\text{minimize} \sum_i (y_i - (wx_i + b))^2$

결론: 정규 분포 가정 하에 MLE = 최소제곱법(Least Squares)

정규화 (Regularization)#

과적합 문제#

모델이 너무 복잡하면 학습 데이터에 과적합(overfitting)되어 새 데이터에서 성능이 떨어집니다.

해결책: 복잡한 모델에 패널티(penalty) 를 부여합니다.

$\text{새 손실} = \text{원래 손실} + \lambda \cdot \text{패널티}$

L2 정규화 (Ridge):

$\text{패널티} = \sum_j w_j^2 \quad \text{(계수의 제곱합)}$

계수가 클수록 큰 패널티
모든 계수를 0 방향으로 축소 (완전히 0으로 만들지는 않음)

L1 정규화 (Lasso): 계수의 절댓값 합 → 일부 계수를 정확히 0으로 만들어 변수 선택 효과

하이퍼파라미터 $\lambda$ : 패널티 강도를 조절합니다. $\lambda$ 가 크면 더 단순한 모델, 작으면 원래 모델과 비슷합니다.

	빈도주의 (Frequentist)	베이즈주의 (Bayesian)
파라미터 관점	고정된 미지의 값	불확실성을 가진 확률 변수
추정 방법	MLE	사전확률 + 데이터 → 사후확률
결과	점 추정값	분포

$\hat{\theta}_{\text{MAP}} = \arg\max_\theta \underbrace{P(\theta \mid \text{data})}_{\text{사후확률}} = \arg\max_\theta \underbrace{P(\text{data} \mid \theta)}_{\text{우도}} \cdot \underbrace{P(\theta)}_{\text{사전확률}}$

사전확률이 균등 분포 → MAP = MLE
사전확률이 정보적(informative) → 사전 지식이 추정에 반영

MAP와 L2 정규화의 관계#

$\theta$ 에 대한 사전확률로 $N(0, \tau^2)$ 을 가정하면:

$\log P(\theta) = -\frac{1}{2\tau^2} \sum_j \theta_j^2 + \text{const}$

MAP 최대화 = MLE 손실 최소화 + $\frac{1}{\tau^2} \sum \theta_j^2$ 패널티

$\Leftrightarrow \text{L2 정규화 (Ridge)}$

결론: L2 정규화 = 가우시안 사전확률을 가진 MAP 추정입니다.

사전확률 업데이트 (Prior → Posterior)#

베이즈 통계의 핵심: 새 데이터를 관측할 때마다 사전확률을 업데이트합니다.

순서적 업데이트: 이전 사후확률이 다음 사전확률이 됩니다.

$P(\theta \mid D_1) \xrightarrow{\text{새 데이터 } D_2} P(\theta \mid D_1, D_2)$

데이터를 한꺼번에 보든, 순서대로 보든 최종 사후확률은 동일합니다.

MAP 선택: 사후 분포의 최빈값(mode)을 점 추정값으로 사용합니다.

MLE vs MAP 비교 요약#

	MLE	MAP
사전 정보 사용	❌	✅
등가	최소제곱법	L2/L1 정규화
데이터 적을 때	과적합 위험	사전 정보로 안정
데이터 많을 때	MLE ≈ MAP	사전 정보 영향 줄어듦
결과	점 추정	점 추정 (사후 분포의 최빈값)

핵심 정리#

개념	설명
모집단/표본	전체/부분 집합, i.i.d. 조건
표본 분산	$\frac{1}{n-1}$ 로 불편 추정
대수의 법칙	$n$ 증가 → 표본 평균 → 모평균
중심극한정리	$n \geq 30$ → 표본 평균 ~ 정규 분포
MLE	우도 최대화 = 관측 빈도 / 최소제곱법
MAP	우도 × 사전확률 최대화 = MLE + 정규화
L2 정규화	가우시안 사전확률 MAP와 동치

퀴즈#

Q1. 표본 분산에서 $n$ 대신 $n-1$ 로 나누는 이유는?

정답 보기

베셀 보정(Bessel's Correction): 표본에서 평균을 먼저 추정하면 자유도가 1 감소합니다.

$n$ 으로 나누면 모집단 분산을 과소 추정합니다. $n-1$ 로 나누면 편향이 없는 불편 추정량을 얻습니다.

직관: 표본 내 데이터가 표본 평균 주변에 가깝게 몰리는 경향이 있어 실제 모집단의 퍼짐을 과소평가하게 됩니다.

Q2. 중심극한정리에 대한 설명으로 옳은 것은?

원래 분포가 정규 분포여야 한다
표본 크기가 크면 표본 평균의 분포가 정규 분포에 가까워진다
표본 크기가 커지면 모집단 분산이 줄어든다
표본 평균은 항상 모평균과 같다

정답 보기

2번

1번 ❌: 원래 분포가 무엇이든 적용됩니다
2번 ✅: CLT의 핵심 내용
3번 ❌: 표본 평균의 분산이 $\sigma^2/n$ 으로 줄어드는 것이지, 모집단 분산은 변하지 않습니다
4번 ❌: 표본 평균은 확률적으로 모평균에 수렴하지만 항상 같지는 않습니다

Q3. 동전을 10번 던져 앞면이 7번 나왔습니다. MLE로 추정한 앞면 확률 $p$ 는?

정답 보기

$L(p) = p^7(1-p)^3$

$\log L(p) = 7\log p + 3\log(1-p)$

$\frac{d\log L}{dp} = \frac{7}{p} - \frac{3}{1-p} = 0 \quad \Rightarrow \quad \hat{p} = \frac{7}{10} = 0.7$

MLE 추정값 = 관측 빈도입니다.

Q4. MLE와 MAP의 차이를 설명하고, L2 정규화와의 연결을 말하세요.

정답 보기

MLE: 데이터만으로 우도 $P(\text{data} \mid \theta)$ 를 최대화
MAP: 사전확률 $P(\theta)$ 도 반영해 $P(\text{data} \mid \theta) \cdot P(\theta)$ 를 최대화

파라미터 $\theta$ 에 가우시안 사전확률 $P(\theta) \propto e^{-\lambda \|\theta\|^2}$ 을 가정하면:

$\text{MAP} = \arg\min_\theta \left[ -\log P(\text{data} \mid \theta) + \lambda \|\theta\|^2 \right]$

이는 L2 정규화(Ridge) 와 정확히 같은 형태입니다.

→ L2 정규화 = 가우시안 사전확률을 가정한 MAP 추정

Q5. 다음 중 대수의 법칙과 중심극한정리의 차이로 옳은 것은?

대수의 법칙은 표본 평균의 분포 모양을, CLT는 수렴 속도를 설명한다
대수의 법칙은 표본 평균이 모평균에 수렴함을, CLT는 표본 평균의 분포가 정규 분포에 수렴함을 설명한다
대수의 법칙은 연속형에만, CLT는 이산형에만 적용된다

정답 보기

2번

대수의 법칙: $n \to \infty$ 일 때 $\bar{X}_n \to \mu$ — 표본 평균의 값이 모평균에 가까워짐
CLT: $n$ 이 크면 $\bar{X}_n$ 의 분포가 정규 분포 $N(\mu, \sigma^2/n)$ 에 가까워짐

두 정리는 서로 다른 측면을 설명합니다. 대수의 법칙은 수렴을, CLT는 수렴하는 분포의 형태를 말합니다.

다음 글에서는 구간 추정(Confidence Interval) 과 가설 검정(Hypothesis Testing) — 추정의 불확실성을 정량화하는 방법을 다룰 예정입니다.

카테고리

태그

표본, MLE, MAP: 머신러닝 확률통계 3장

이번 글에서 배우는 것#

모집단과 표본#

핵심 개념#

표본 평균 (Sample Mean)#

표본 분산 (Sample Variance)#

대수의 법칙 (Law of Large Numbers)#

중심극한정리 (Central Limit Theorem, CLT)#

핵심 내용#

핵심 포인트#

최대 우도 추정 (MLE, Maximum Likelihood Estimation)#

핵심 아이디어#

베르누이 MLE 예시#

가우시안 MLE#

선형 회귀와 MLE#

정규화 (Regularization)#

과적합 문제#

MAP와 베이즈 통계#

빈도주의 vs 베이즈주의#

MAP (Maximum A Posteriori)#

MAP와 L2 정규화의 관계#

사전확률 업데이트 (Prior → Posterior)#

MLE vs MAP 비교 요약#

핵심 정리#

퀴즈#

관련 포스트

확률·통계 실무 개념 과제: ML 현장에서 마주치는 추론 문제들

확률·통계 코딩 과제: Python으로 구현하는 ML 통계 도구

신뢰구간과 가설검정: 머신러닝 확률통계 4장