devlog.

신뢰구간과 가설검정: 머신러닝 확률통계 4장

·14분 읽기·

3장에서는 표본으로 모집단을 추정하는 MLE와 MAP를 배웠습니다. 이번 글에서는 추정의 불확실성을 수치화하는 신뢰구간과, 가설을 데이터로 검증하는 가설검정을 다룹니다.


1. 신뢰구간 (Confidence Intervals)#

신뢰구간이란?#

점 추정(point estimate)은 모수를 단일 값으로 추정합니다. 그러나 표본은 항상 변동이 있기 때문에 구간 추정이 더 유용합니다.

신뢰구간(CI): 모수가 포함될 것으로 기대되는 값의 범위

xˉ±margin of error\bar{x} \pm \text{margin of error}

  • 95% CI: 동일한 실험을 100번 반복하면 약 95번은 해당 구간에 모평균이 포함됨
  • CI는 특정 구간에 모수가 있을 "확률"이 아님 — 모수는 고정값, CI가 변하는 것

오차 한계 (Margin of Error)#

ME=zσn\text{ME} = z^* \cdot \frac{\sigma}{\sqrt{n}}

신뢰수준zz^*
90%1.645
95%1.960
99%2.576

표본 크기의 영향: nn이 클수록 σn\frac{\sigma}{\sqrt{n}}이 작아져 CI가 좁아짐 (더 정밀한 추정)

CI 계산 절차:

  1. 점 추정값 계산 (xˉ\bar{x})
  2. 신뢰수준 선택 → zz^* 결정
  3. 표준오차 계산: SE=σnSE = \frac{\sigma}{\sqrt{n}}
  4. CI 계산: xˉ±zSE\bar{x} \pm z^* \cdot SE

모표준편차를 모를 때 — t분포#

현실에서는 σ\sigma를 모르는 경우가 대부분입니다. 이때 표본표준편차 ss로 대체하면 불확실성이 커지므로 t분포를 사용합니다.

t=xˉμs/nt = \frac{\bar{x} - \mu}{s/\sqrt{n}}

  • 자유도(df) = n1n - 1
  • nn이 작을수록 꼬리가 두꺼워짐 (불확실성 반영)
  • nn이 크면 표준정규분포에 수렴

t분포를 활용한 CI:

xˉ±tn1sn\bar{x} \pm t^*_{n-1} \cdot \frac{s}{\sqrt{n}}

비율의 신뢰구간#

이진 결과(성공/실패)에서의 모비율 pp 추정:

p^±zp^(1p^)n\hat{p} \pm z^* \cdot \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}

조건: np^10n\hat{p} \geq 10, n(1p^)10n(1-\hat{p}) \geq 10 (정규 근사 성립)


2. 가설검정 (Hypothesis Testing)#

귀무가설과 대립가설#

내용
귀무가설 H0H_0효과 없음, 차이 없음 — "기본 가정"
대립가설 H1H_1우리가 증명하고자 하는 주장

예시:

  • H0H_0: 신약과 기존 약의 효과는 같다 (μ1=μ2\mu_1 = \mu_2)
  • H1H_1: 신약이 더 효과적이다 (μ1>μ2\mu_1 > \mu_2)

오류의 종류#

H0H_0H0H_0 거짓
기각1종 오류 (False Positive)올바른 결정
채택올바른 결정2종 오류 (False Negative)
  • 1종 오류율 = 유의수준 α\alpha (보통 0.05)
  • 2종 오류율 = β\beta
  • 검정력(Power) = 1β1 - \beta (참인 H1H_1을 맞게 기각할 확률)

유의수준 (Significance Level)#

α\alpha는 1종 오류를 허용하는 최대 확률입니다.

  • α=0.05\alpha = 0.05: 귀무가설이 참일 때 5% 확률로 잘못 기각
  • α\alpha를 낮추면 1종 오류 감소, 2종 오류 증가

단측검정 vs 양측검정#

검정 유형H1H_1기각역 위치
우측 단측μ>μ0\mu > \mu_0오른쪽 꼬리
좌측 단측μ<μ0\mu < \mu_0왼쪽 꼬리
양측μμ0\mu \neq \mu_0양쪽 꼬리

양측검정에서는 α\alpha를 양쪽에 나누어 각 꼬리에 α/2\alpha/2를 할당합니다.

p값 (p-value)#

p값: H0H_0이 참일 때, 관측된 통계량 이상으로 극단적인 값이 나올 확률

p-value<αH0 기각p\text{-value} < \alpha \Rightarrow H_0 \text{ 기각} p-valueαH0 기각 실패 (채택 아님)p\text{-value} \geq \alpha \Rightarrow H_0 \text{ 기각 실패 (채택 아님)}

주의: "p값이 작다" = "우연히 이런 결과가 나오기 어렵다" = 효과가 실재할 가능성이 높다

기각역과 임계값 (Critical Values)#

임계값(critical value): α\alpha에 해당하는 검정통계량의 경계값

검정통계량이 기각역(rejection region)에 속하면 H0H_0을 기각합니다.

예: 양측검정, α=0.05\alpha=0.05z<1.96z < -1.96 또는 z>1.96z > 1.96 이면 기각

검정력 (Power of a Test)#

Power=P(reject H0H1 is true)=1β\text{Power} = P(\text{reject } H_0 \mid H_1 \text{ is true}) = 1 - \beta

검정력을 높이려면:

  • 표본 크기 nn 증가
  • α\alpha 증가 (1종 오류 허용을 늘림)
  • 효과 크기(effect size)가 클수록 자연히 증가

3. t검정 (t-Tests)#

단일 표본 t검정#

하나의 표본 평균이 특정 값 μ0\mu_0과 다른지 검정합니다.

t=xˉμ0s/n,df=n1t = \frac{\bar{x} - \mu_0}{s/\sqrt{n}}, \quad df = n-1

예: "이 반 학생들의 평균 점수가 70점인가?"

독립 이표본 t검정 (Two-Sample t-Test)#

두 독립 집단의 평균 차이를 검정합니다.

t=(xˉ1xˉ2)0s12n1+s22n2t = \frac{(\bar{x}_1 - \bar{x}_2) - 0}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}}

  • 자유도: Welch 근사법 사용 (두 집단의 분산이 다를 때)
  • H0H_0: μ1=μ2\mu_1 = \mu_2

이표본 비율 검정 (Two-Sample Proportion Test)#

두 집단의 비율 차이를 검정합니다.

z=(p^1p^2)p^(1p^)(1n1+1n2)z = \frac{(\hat{p}_1 - \hat{p}_2)}{\sqrt{\hat{p}(1-\hat{p})\left(\frac{1}{n_1} + \frac{1}{n_2}\right)}}

여기서 p^\hat{p}는 합동 비율(pooled proportion):

p^=x1+x2n1+n2\hat{p} = \frac{x_1 + x_2}{n_1 + n_2}

대응 표본 t검정 (Paired t-Test)#

동일한 대상에서 전후 측정값 차이를 검정합니다.

di=xi,afterxi,before,t=dˉsd/nd_i = x_{i,\text{after}} - x_{i,\text{before}}, \quad t = \frac{\bar{d}}{s_d/\sqrt{n}}

예: 약 복용 전후 혈압 변화 — 각 환자가 자신의 대조군이 됨


4. A/B 테스트#

A/B 테스트는 이표본 검정의 실무 적용입니다.

절차:

  1. H0H_0 설정: A와 B의 전환율은 같다
  2. 유의수준 α\alpha 설정 (보통 0.05)
  3. 충분한 표본 수집 (검정력 기반 표본 크기 계산)
  4. 검정통계량 계산
  5. p값 확인 → H0H_0 기각 여부 결정

주의사항:

  • 다중 비교 문제: 여러 지표를 동시에 테스트하면 1종 오류 증가 → Bonferroni 보정 등 필요
  • 조기 종료 금지: 유의해 보인다고 실험을 일찍 멈추면 False Positive 급증
  • 실용적 유의성 vs 통계적 유의성: p값이 작아도 효과 크기(effect size)가 작으면 의미 없을 수 있음

정리#

개념핵심
신뢰구간xˉ±zSE\bar{x} \pm z^* \cdot SE — 모수의 범위 추정
t분포σ\sigma 미지 시 사용, df = n1n-1
p값H0H_0 하에서 관측값 이상이 나올 확률
1종 오류α\alpha — 참인 H0H_0를 기각
2종 오류β\beta — 거짓인 H0H_0를 채택
검정력1β1 - \beta — 효과를 감지할 능력
대응 t검정같은 대상의 전후 비교

퀴즈#

Q1. 95% 신뢰구간의 올바른 해석은?

a) 모평균이 이 구간 안에 있을 확률이 95%이다 b) 동일 실험을 반복하면 약 95%의 구간이 모평균을 포함한다 c) 표본 평균이 이 구간 안에 있을 확률이 95%이다 d) 표본의 95%가 이 구간 안에 속한다

정답 보기

정답: b

신뢰구간은 "모수가 구간에 있을 확률"이 아닙니다. 모수는 고정된 값이고, 구간이 표본마다 달라집니다. 95% CI는 "이 절차로 구간을 만들면 100번 중 약 95번은 모수를 포함한다"는 의미입니다.


Q2. t분포를 z분포 대신 사용하는 이유는?

a) 표본이 정규분포를 따를 때 b) 모표준편차 σ\sigma를 알 수 없어 ss로 대체할 때 c) 표본 크기가 30 이상일 때 d) 이진 데이터를 분석할 때

정답 보기

정답: b

σ\sigma를 모르고 ss를 쓰면 추가 불확실성이 생깁니다. t분포는 이를 반영해 꼬리가 더 두꺼우며, 표본 크기가 커질수록 표준정규분포에 수렴합니다.


Q3. p값이 0.03이고 유의수준 α=0.05\alpha = 0.05일 때, 올바른 결론은?

a) 귀무가설을 채택한다 b) 대립가설이 거짓이다 c) 귀무가설을 기각한다 d) 결론을 내릴 수 없다

정답 보기

정답: c

p값(0.03) < α\alpha(0.05)이므로 귀무가설을 기각합니다. 단, "귀무가설이 거짓임을 증명"한 것이 아니라 "현재 데이터와 귀무가설이 충분히 비일치함"을 의미합니다.


Q4. 대응 표본 t검정이 독립 이표본 t검정보다 적합한 상황은?

a) 두 집단의 표본 크기가 다를 때 b) 동일한 피험자에게 처치 전후 측정값을 비교할 때 c) 두 집단의 분산이 같을 때 d) 표본 크기가 클 때

정답 보기

정답: b

같은 피험자의 전후 측정값은 독립이 아닙니다. 차이(did_i)를 계산해 개인 간 변동을 제거하면 검정력이 높아집니다. 예: 동일 환자의 치료 전후 혈압 비교.


Q5. A/B 테스트에서 "조기 종료"가 문제인 이유는?

a) 표본 크기가 너무 커지기 때문에 b) 매 시점마다 검정하면 1종 오류율이 명목 α\alpha보다 훨씬 커지기 때문에 c) t분포 대신 z분포를 써야 하기 때문에 d) 검정력이 낮아지기 때문에

정답 보기

정답: b

중간 결과를 계속 모니터링하며 유의하게 보일 때 멈추면 다중 검정 문제가 발생합니다. 실제 효과가 없어도 우연히 유의한 결과가 나올 확률이 α\alpha를 훨씬 초과하게 됩니다.


다음 글에서는 정보이론(Information Theory) — 엔트로피, 크로스엔트로피, KL 발산 등 머신러닝 손실 함수의 수학적 기반을 다룰 예정입니다.

관련 포스트