devlog.

표본, MLE, MAP: 머신러닝 확률통계 3장

·13분 읽기·

2장에서는 분포를 기술하는 통계량과 다변수 분포를 배웠습니다. 이번 글에서는 표본으로 모집단을 추정하는 방법론, 그리고 머신러닝에서 핵심인 MLEMAP를 다룹니다.

이 글은 DeepLearning.AI의 Mathematics for Machine Learning and Data Science — Probability & Statistics 2주차 내용을 기반으로 정리했습니다.

이번 글에서 배우는 것#

  • 모집단 vs 표본 — 무엇을, 왜 구별하는가
  • 표본 평균·비율·분산 — 불편 추정량
  • 대수의 법칙 — 표본이 많을수록 정확해지는 이유
  • 중심극한정리 (CLT) — 어떤 분포도 샘플을 충분히 모으면 정규 분포
  • MLE — 데이터를 가장 잘 설명하는 파라미터 찾기
  • MAP — 사전 정보를 결합한 MLE
  • 정규화 — MAP와 L2 정규화의 연결

모집단과 표본#

핵심 개념#

용어정의
모집단 (Population)연구 대상 전체 집합
표본 (Sample)모집단에서 무작위로 추출한 일부
모수 (Parameter)모집단의 특성값 (μ\mu, σ2\sigma^2)
통계량 (Statistic)표본으로 계산한 추정값 (xˉ\bar{x}, s2s^2)

왜 표본을 쓰는가? 모집단 전체를 조사하는 것은 불가능하거나 비용이 너무 크므로, 무작위 표본으로 모집단을 추정합니다.

좋은 표본의 조건 (i.i.d.):

  • 독립성: 각 관측값이 서로 영향을 주지 않음
  • 동일 분포: 모두 같은 분포에서 추출

표본 평균 (Sample Mean)#

xˉ=1ni=1nxi\bar{x} = \frac{1}{n} \sum_{i=1}^n x_i

  • 모집단 평균 μ\mu불편 추정량 (편향 없음)
  • 표본이 클수록 xˉμ\bar{x} \to \mu

표본 분산 (Sample Variance)#

s2=1n1i=1n(xixˉ)2s^2 = \frac{1}{n-1} \sum_{i=1}^n (x_i - \bar{x})^2

n1n-1 인가? (베셀 보정): nn 으로 나누면 모집단 분산을 과소 추정합니다. 평균 추정에 자유도 1이 소모되므로 n1n-1 로 나눠야 불편 추정량이 됩니다.

MLE로 구한 분산 추정량은 1n\frac{1}{n} 을 사용해 편향이 있습니다. 실무에서 표본 분산을 쓸 때는 1n1\frac{1}{n-1} 을 씁니다.


대수의 법칙 (Law of Large Numbers)#

표본 크기 nn 이 커질수록 표본 평균이 모집단 평균에 수렴합니다.

xˉnnμ\bar{x}_n \xrightarrow{n \to \infty} \mu

예시: 동전을 던질 때 처음 몇 번은 앞면 비율이 0.3, 0.7 등으로 변동이 심하지만, 수천 번이 되면 0.5에 수렴합니다.

머신러닝 의미: 학습 데이터가 많을수록 모델이 실제 데이터 분포를 더 잘 학습할 수 있습니다.


중심극한정리 (Central Limit Theorem, CLT)#

핵심 내용#

원래 분포의 모양과 관계없이, 독립적이고 동일하게 분포된 확률 변수 X1,X2,,XnX_1, X_2, \ldots, X_n 의 표본 평균은 nn 이 충분히 클 때 정규 분포에 수렴합니다.

XˉnN(μ,σ2n)(n이 클 때)\bar{X}_n \sim N\left(\mu, \frac{\sigma^2}{n}\right) \quad \text{(n이 클 때)}

표준화:

Zn=Xˉnμσ/nnN(0,1)Z_n = \frac{\bar{X}_n - \mu}{\sigma / \sqrt{n}} \xrightarrow{n \to \infty} N(0, 1)

핵심 포인트#

항목
CLT 적용 최소 표본 수일반적으로 n30n \geq 30
원래 분포가 대칭이면더 적은 nn 으로도 수렴
원래 분포가 치우치면더 많은 nn 필요

왜 표준화가 필요한가?: 표본 평균의 분산이 σ2n\frac{\sigma^2}{n} 으로 nn 에 따라 변해 비교가 어렵기 때문입니다.

실무 의미: 어떤 분포에서 데이터를 뽑아도, 충분히 많은 표본에서 구한 통계량은 정규 분포를 따릅니다. 이것이 신뢰 구간, 가설 검정의 이론적 기반입니다.


최대 우도 추정 (MLE, Maximum Likelihood Estimation)#

핵심 아이디어#

관측 데이터를 가장 그럴듯하게 생성했을 파라미터를 찾는 방법입니다.

θ^MLE=argmaxθP(dataθ)=argmaxθL(θ)\hat{\theta}_{\text{MLE}} = \arg\max_\theta P(\text{data} \mid \theta) = \arg\max_\theta L(\theta)

관측 데이터의 우도(Likelihood) 를 최대화하는 θ\theta 를 찾습니다.

베르누이 MLE 예시#

동전을 10번 던져 앞면 8번 관측:

L(p)=p8(1p)2L(p) = p^8 (1-p)^2

로그 변환 (곱 → 합):

logL(p)=8logp+2log(1p)\log L(p) = 8\log p + 2\log(1-p)

미분하여 최솟값:

dlogLdp=8p21p=0p^=810=0.8\frac{d \log L}{dp} = \frac{8}{p} - \frac{2}{1-p} = 0 \quad \Rightarrow \quad \hat{p} = \frac{8}{10} = 0.8

결론: MLE 추정값 = 관측 빈도 (직관적으로 납득되는 결과)

가우시안 MLE#

nn개 샘플 x1,,xnx_1, \ldots, x_nN(μ,σ2)N(\mu, \sigma^2) 에서 왔을 때:

평균의 MLE:

μ^MLE=1ni=1nxi=xˉ\hat{\mu}_{\text{MLE}} = \frac{1}{n} \sum_{i=1}^n x_i = \bar{x}

분산의 MLE:

σ^MLE2=1ni=1n(xixˉ)2\hat{\sigma}^2_{\text{MLE}} = \frac{1}{n} \sum_{i=1}^n (x_i - \bar{x})^2

MLE 분산 추정량은 1n\frac{1}{n} 을 사용해 편향(biased) 이 있습니다 (표본 분산 s2s^21n1\frac{1}{n-1} 로 불편).

선형 회귀와 MLE#

선형 회귀 y=wx+b+ϵy = wx + b + \epsilon (ϵN(0,σ2)\epsilon \sim N(0, \sigma^2)) 에서:

P(yixi,w,b)=N(wxi+b,σ2)P(y_i \mid x_i, w, b) = N(wx_i + b, \sigma^2)

우도를 최대화하는 w,bw, b 를 찾는 것 =

minimizei(yi(wxi+b))2\text{minimize} \sum_i (y_i - (wx_i + b))^2

결론: 정규 분포 가정 하에 MLE = 최소제곱법(Least Squares)


정규화 (Regularization)#

과적합 문제#

모델이 너무 복잡하면 학습 데이터에 과적합(overfitting)되어 새 데이터에서 성능이 떨어집니다.

해결책: 복잡한 모델에 패널티(penalty) 를 부여합니다.

새 손실=원래 손실+λ패널티\text{새 손실} = \text{원래 손실} + \lambda \cdot \text{패널티}

L2 정규화 (Ridge):

패널티=jwj2(계수의 제곱합)\text{패널티} = \sum_j w_j^2 \quad \text{(계수의 제곱합)}

  • 계수가 클수록 큰 패널티
  • 모든 계수를 0 방향으로 축소 (완전히 0으로 만들지는 않음)

L1 정규화 (Lasso): 계수의 절댓값 합 → 일부 계수를 정확히 0으로 만들어 변수 선택 효과

하이퍼파라미터 λ\lambda: 패널티 강도를 조절합니다. λ\lambda 가 크면 더 단순한 모델, 작으면 원래 모델과 비슷합니다.


MAP와 베이즈 통계#

빈도주의 vs 베이즈주의#

빈도주의 (Frequentist)베이즈주의 (Bayesian)
파라미터 관점고정된 미지의 값불확실성을 가진 확률 변수
추정 방법MLE사전확률 + 데이터 → 사후확률
결과점 추정값분포

MAP (Maximum A Posteriori)#

MLE + 사전 정보(Prior):

θ^MAP=argmaxθP(θdata)사후확률=argmaxθP(dataθ)우도P(θ)사전확률\hat{\theta}_{\text{MAP}} = \arg\max_\theta \underbrace{P(\theta \mid \text{data})}_{\text{사후확률}} = \arg\max_\theta \underbrace{P(\text{data} \mid \theta)}_{\text{우도}} \cdot \underbrace{P(\theta)}_{\text{사전확률}}

  • 사전확률이 균등 분포 → MAP = MLE
  • 사전확률이 정보적(informative) → 사전 지식이 추정에 반영

MAP와 L2 정규화의 관계#

θ\theta 에 대한 사전확률로 N(0,τ2)N(0, \tau^2) 을 가정하면:

logP(θ)=12τ2jθj2+const\log P(\theta) = -\frac{1}{2\tau^2} \sum_j \theta_j^2 + \text{const}

MAP 최대화 = MLE 손실 최소화 + 1τ2θj2\frac{1}{\tau^2} \sum \theta_j^2 패널티

L2 정규화 (Ridge)\Leftrightarrow \text{L2 정규화 (Ridge)}

결론: L2 정규화 = 가우시안 사전확률을 가진 MAP 추정입니다.

사전확률 업데이트 (Prior → Posterior)#

베이즈 통계의 핵심: 새 데이터를 관측할 때마다 사전확률을 업데이트합니다.

순서적 업데이트: 이전 사후확률이 다음 사전확률이 됩니다.

P(θD1)새 데이터 D2P(θD1,D2)P(\theta \mid D_1) \xrightarrow{\text{새 데이터 } D_2} P(\theta \mid D_1, D_2)

데이터를 한꺼번에 보든, 순서대로 보든 최종 사후확률은 동일합니다.

MAP 선택: 사후 분포의 최빈값(mode)을 점 추정값으로 사용합니다.


MLE vs MAP 비교 요약#

MLEMAP
사전 정보 사용
등가최소제곱법L2/L1 정규화
데이터 적을 때과적합 위험사전 정보로 안정
데이터 많을 때MLE ≈ MAP사전 정보 영향 줄어듦
결과점 추정점 추정 (사후 분포의 최빈값)

핵심 정리#

개념설명
모집단/표본전체/부분 집합, i.i.d. 조건
표본 분산1n1\frac{1}{n-1} 로 불편 추정
대수의 법칙nn 증가 → 표본 평균 → 모평균
중심극한정리n30n \geq 30 → 표본 평균 ~ 정규 분포
MLE우도 최대화 = 관측 빈도 / 최소제곱법
MAP우도 × 사전확률 최대화 = MLE + 정규화
L2 정규화가우시안 사전확률 MAP와 동치


퀴즈#

Q1. 표본 분산에서 nn 대신 n1n-1 로 나누는 이유는?

정답 보기

베셀 보정(Bessel's Correction): 표본에서 평균을 먼저 추정하면 자유도가 1 감소합니다.

nn 으로 나누면 모집단 분산을 과소 추정합니다. n1n-1 로 나누면 편향이 없는 불편 추정량을 얻습니다.

직관: 표본 내 데이터가 표본 평균 주변에 가깝게 몰리는 경향이 있어 실제 모집단의 퍼짐을 과소평가하게 됩니다.


Q2. 중심극한정리에 대한 설명으로 옳은 것은?

  1. 원래 분포가 정규 분포여야 한다
  2. 표본 크기가 크면 표본 평균의 분포가 정규 분포에 가까워진다
  3. 표본 크기가 커지면 모집단 분산이 줄어든다
  4. 표본 평균은 항상 모평균과 같다
정답 보기

2번

  • 1번 ❌: 원래 분포가 무엇이든 적용됩니다
  • 2번 ✅: CLT의 핵심 내용
  • 3번 ❌: 표본 평균의 분산이 σ2/n\sigma^2/n 으로 줄어드는 것이지, 모집단 분산은 변하지 않습니다
  • 4번 ❌: 표본 평균은 확률적으로 모평균에 수렴하지만 항상 같지는 않습니다

Q3. 동전을 10번 던져 앞면이 7번 나왔습니다. MLE로 추정한 앞면 확률 pp 는?

정답 보기

L(p)=p7(1p)3L(p) = p^7(1-p)^3

logL(p)=7logp+3log(1p)\log L(p) = 7\log p + 3\log(1-p)

dlogLdp=7p31p=0p^=710=0.7\frac{d\log L}{dp} = \frac{7}{p} - \frac{3}{1-p} = 0 \quad \Rightarrow \quad \hat{p} = \frac{7}{10} = 0.7

MLE 추정값 = 관측 빈도입니다.


Q4. MLE와 MAP의 차이를 설명하고, L2 정규화와의 연결을 말하세요.

정답 보기
  • MLE: 데이터만으로 우도 P(dataθ)P(\text{data} \mid \theta) 를 최대화
  • MAP: 사전확률 P(θ)P(\theta) 도 반영해 P(dataθ)P(θ)P(\text{data} \mid \theta) \cdot P(\theta) 를 최대화

파라미터 θ\theta가우시안 사전확률 P(θ)eλθ2P(\theta) \propto e^{-\lambda \|\theta\|^2} 을 가정하면:

MAP=argminθ[logP(dataθ)+λθ2]\text{MAP} = \arg\min_\theta \left[ -\log P(\text{data} \mid \theta) + \lambda \|\theta\|^2 \right]

이는 L2 정규화(Ridge) 와 정확히 같은 형태입니다.

L2 정규화 = 가우시안 사전확률을 가정한 MAP 추정


Q5. 다음 중 대수의 법칙과 중심극한정리의 차이로 옳은 것은?

  1. 대수의 법칙은 표본 평균의 분포 모양을, CLT는 수렴 속도를 설명한다
  2. 대수의 법칙은 표본 평균이 모평균에 수렴함을, CLT는 표본 평균의 분포가 정규 분포에 수렴함을 설명한다
  3. 대수의 법칙은 연속형에만, CLT는 이산형에만 적용된다
정답 보기

2번

  • 대수의 법칙: nn \to \infty 일 때 Xˉnμ\bar{X}_n \to \mu — 표본 평균의 이 모평균에 가까워짐
  • CLT: nn 이 크면 Xˉn\bar{X}_n분포가 정규 분포 N(μ,σ2/n)N(\mu, \sigma^2/n) 에 가까워짐

두 정리는 서로 다른 측면을 설명합니다. 대수의 법칙은 수렴을, CLT는 수렴하는 분포의 형태를 말합니다.


다음 글에서는 구간 추정(Confidence Interval)가설 검정(Hypothesis Testing) — 추정의 불확실성을 정량화하는 방법을 다룰 예정입니다.

관련 포스트