devlog.

확률·통계 실무 개념 과제: ML 현장에서 마주치는 추론 문제들

·12분 읽기·

이 글은 확률통계 1~4장에서 다룬 개념들을 머신러닝·데이터 분석 실무 시나리오에 적용하는 연습 문제 모음입니다. 수식 암기보다 개념의 적용과 해석에 초점을 맞춥니다.


Part 1. 확률 기초와 베이즈 정리#

문제 1-1. 스팸 필터의 베이즈 정리#

이메일 스팸 필터를 설계합니다.

  • 전체 이메일 중 스팸 비율: 20%
  • 스팸 메일에 "무료"라는 단어가 포함될 확률: 60%
  • 정상 메일에 "무료"가 포함될 확률: 5%

"무료"가 포함된 이메일이 실제로 스팸일 확률을 구하세요.

정답 보기

베이즈 정리 적용:

P(스팸"무료")=P("무료"스팸)P(스팸)P("무료")P(\text{스팸} \mid \text{"무료"}) = \frac{P(\text{"무료"} \mid \text{스팸}) \cdot P(\text{스팸})}{P(\text{"무료"})}

분모 계산 (전확률 공식):

P("무료")=0.6×0.2+0.05×0.8=0.12+0.04=0.16P(\text{"무료"}) = 0.6 \times 0.2 + 0.05 \times 0.8 = 0.12 + 0.04 = 0.16

P(스팸"무료")=0.6×0.20.16=0.120.16=0.75P(\text{스팸} \mid \text{"무료"}) = \frac{0.6 \times 0.2}{0.16} = \frac{0.12}{0.16} = 0.75

결론: "무료"가 포함된 이메일은 75% 확률로 스팸입니다. 사전확률(20%)이 사후확률(75%)으로 크게 업데이트되었습니다.

머신러닝 연결: Naive Bayes 분류기는 이 원리를 각 단어에 독립적으로 적용해 텍스트를 분류합니다.


문제 1-2. 조건부 독립과 인과관계 오해#

아이스크림 판매량과 익사 사고 건수가 강한 양의 상관관계를 보입니다. 다음 질문에 답하세요.

  1. 이 상관관계가 인과관계를 의미하는가?
  2. 이 현상을 확률론적으로 어떻게 설명하는가? (교란변수 개념 포함)
  3. 머신러닝 모델이 이런 상관관계를 학습하면 어떤 문제가 생기는가?
정답 보기

1. 아니오: 상관관계 ≠ 인과관계. 아이스크림이 익사를 유발하지 않습니다.

2. 교란변수(Confounding Variable): "여름 기온"이 공통 원인입니다.

기온아이스크림 판매량\text{기온} \rightarrow \text{아이스크림 판매량} 기온수영 인구 증가익사 사고\text{기온} \rightarrow \text{수영 인구 증가} \rightarrow \text{익사 사고}

기온을 통제(조건화)하면 두 변수는 독립입니다: P(익사아이스크림,기온)=P(익사기온)P(\text{익사} \mid \text{아이스크림}, \text{기온}) = P(\text{익사} \mid \text{기온})

3. ML 문제점: 모델이 허위 상관관계를 학습하면 분포가 다른 테스트 데이터에서 실패합니다 (Distribution Shift). 예측은 할 수 있어도 인과적 개입(intervention)에 대한 추론은 틀립니다.


Part 2. 분포와 통계량#

문제 2-1. 왜도·첨도와 모델 선택#

다음 데이터의 분포 특성을 분석하고 적절한 모델을 제안하세요.

데이터셋평균중앙값왜도첨도(초과)
A (주택 가격)5억3.5억2.15.3
B (시험 점수)72710.1-0.3
C (클릭 수)823.818.2

각 데이터에 대해: (1) 분포 형태 설명, (2) 평균 vs 중앙값 중 대표값 선택, (3) 적합한 확률 분포 제안

정답 보기

A (주택 가격): 왜도 양수 → 오른쪽 꼬리가 긴 우편포 분포. 평균이 중앙값보다 크게 높으므로 중앙값이 대표값으로 적합. 로그 변환 후 정규분포 또는 로그정규분포 모델링 권장.

B (시험 점수): 왜도 ≈ 0, 첨도 ≈ 0 → 거의 정규분포. 평균과 중앙값이 유사하므로 둘 다 사용 가능. 정규분포 직접 모델링 적합.

C (클릭 수): 왜도·첨도 모두 매우 큼 → 극단적인 우편포, 극단치(바이럴 콘텐츠 등) 다수. 중앙값 사용. 이산형이므로 음이항분포(Negative Binomial) 또는 파워로우 분포 검토.


문제 2-2. 공분산과 상관계수의 한계#

두 변수 X와 Y에 대한 다음 상황을 분석하세요.

  • 상황 A: Cov(X,Y)=500\text{Cov}(X, Y) = 500, Var(X)=10000\text{Var}(X) = 10000, Var(Y)=40000\text{Var}(Y) = 40000
  • 상황 B: Cov(X,Y)=100\text{Cov}(X, Y) = 100, Var(X)=100\text{Var}(X) = 100, Var(Y)=200\text{Var}(Y) = 200
  1. 각 상황의 피어슨 상관계수를 구하세요.
  2. 어느 상황이 더 강한 선형 관계인가요?
  3. 상관계수가 0이어도 두 변수가 관련될 수 있는 예시를 들어보세요.
정답 보기

1. 상관계수 계산:

rA=50010000×40000=50020000=0.025r_A = \frac{500}{\sqrt{10000 \times 40000}} = \frac{500}{20000} = 0.025

rB=100100×200=100141.40.707r_B = \frac{100}{\sqrt{100 \times 200}} = \frac{100}{141.4} \approx 0.707

2. 상황 B가 훨씬 강한 선형 관계: 공분산 값만 보면 A가 크지만, 변수의 스케일이 달라 직접 비교가 불가합니다. 상관계수는 이를 정규화한 값입니다.

3. 상관계수 = 0이지만 관련된 예시: Y=X2Y = X^2, XU(1,1)X \sim U(-1, 1). X와 Y는 명백히 관련되지만 선형 상관계수는 0입니다. → 상관계수는 선형 관계만 포착합니다. 비선형 관계는 MI(Mutual Information) 등으로 측정해야 합니다.


Part 3. 표본 추정과 MLE/MAP#

문제 3-1. 대수의 법칙과 CLT 구분#

다음 두 개념을 혼동하지 않도록 차이를 설명하고 각각의 ML 응용을 제시하세요.

  • 대수의 법칙(LLN): 표본 크기가 커질수록 표본 평균이 모평균에 수렴
  • 중심극한정리(CLT): 표본 크기가 충분히 크면 표본 평균의 분포가 정규분포에 근사

특히 "LLN이 성립해도 CLT가 성립하지 않는 경우"가 있는가? 이유는?

정답 보기

차이점:

LLNCLT
말하는 것수렴 대상 (값)수렴 분포 (모양)
조건유한 기댓값유한 분산
결과Xˉnμ\bar{X}_n \to \muXˉnN(μ,σ2/n)\bar{X}_n \sim N(\mu, \sigma^2/n)

LLN 성립 + CLT 불성립 예시: 코시분포(Cauchy distribution). 기댓값이 정의되지 않아 LLN도 불성립. 하지만 더 일반적으로, 분산이 무한한 분포(예: 파레토 분포의 일부 파라미터)에서는 LLN은 성립하나 CLT는 불성립합니다.

ML 응용:

  • LLN → 미니배치 SGD의 이론적 근거: 충분한 배치면 전체 그래디언트를 근사
  • CLT → 앙상블 예측의 불확실성 추정, 가설검정에서 검정통계량의 분포 가정

문제 3-2. MLE vs MAP — 과적합 관점#

동전 던지기를 10번 해서 8번 앞면이 나왔습니다. θ\theta = 앞면이 나올 확률을 추정합니다.

  1. MLE로 θ^\hat{\theta}를 구하세요.
  2. Beta(3,3)\text{Beta}(3, 3) 사전 분포를 사용한 MAP 추정값을 구하세요.
  3. 두 결과를 비교하고, 데이터가 적을 때 MAP가 왜 더 나은 추정인지 설명하세요.
정답 보기

1. MLE: 이항 분포의 로그 우도를 최대화하면:

θ^MLE=810=0.8\hat{\theta}_\text{MLE} = \frac{8}{10} = 0.8

2. MAP with Beta(3,3): 사후 분포는 Beta(3+8,3+2)=Beta(11,5)\text{Beta}(3+8, 3+2) = \text{Beta}(11, 5)

θ^MAP=α1α+β2=10140.714\hat{\theta}_\text{MAP} = \frac{\alpha - 1}{\alpha + \beta - 2} = \frac{10}{14} \approx 0.714

3. 비교:

MLEMAP
추정값0.80.714
사전 지식무시반영 (0.5 방향으로 당김)
데이터 적을 때과적합 위험정규화 효과
데이터 많을 때MLE ≈ MAP사전 영향 희석

데이터가 적으면 MLE는 우연한 결과(8/10)를 과도하게 신뢰합니다. MAP의 사전 분포는 "0.5 근방일 것"이라는 합리적 믿음을 반영해 추정을 안정화합니다. 이는 L2 정규화와 수학적으로 동일합니다.


Part 4. 신뢰구간과 가설검정#

문제 4-1. CI 해석의 흔한 오해#

모델 정확도를 100번 실험했을 때 95% CI가 [0.82,0.88][0.82, 0.88]로 계산되었습니다. 다음 중 올바른 해석을 고르고, 나머지가 왜 틀렸는지 설명하세요.

a) "모델의 실제 정확도가 이 구간 안에 있을 확률이 95%이다." b) "이 절차로 CI를 반복 생성하면, 약 95번은 실제 정확도를 포함한다." c) "표본의 95%가 이 구간 안에 속한다." d) "다음 실험의 정확도가 이 구간 안에 있을 확률이 95%이다."

정답 보기

정답: b

a가 틀린 이유: 모수(실제 정확도)는 고정된 값 — 확률이 아닙니다. 구간이 변하는 것입니다.

c가 틀린 이유: CI는 모수의 범위이지, 개별 데이터의 분포 범위(예측구간)가 아닙니다.

d가 틀린 이유: 예측구간(Prediction Interval)의 개념과 혼동하고 있습니다. CI는 모수 추정 범위이고, 예측구간은 새 관측값의 범위입니다. (예측구간이 항상 CI보다 넓습니다.)


문제 4-2. 가설검정 설계와 오류 트레이드오프#

신약 임상시험: 신약과 위약 그룹의 회복률 차이를 검정합니다.

  1. H0H_0, H1H_1을 설정하고 단측/양측 검정 여부를 결정하세요.
  2. 의료 맥락에서 1종 오류와 2종 오류 중 어느 것이 더 심각한가요?
  3. 검정력(Power)을 높이려면 어떤 방법이 있나요? (3가지 이상)
정답 보기

1. 가설 설정:

  • H0H_0: p신약p위약p_\text{신약} \leq p_\text{위약} (효과 없거나 해로움)
  • H1H_1: p신약>p위약p_\text{신약} > p_\text{위약} (효과 있음)
  • 방향이 명확(신약이 더 좋기를 기대)하므로 우측 단측 검정

2. 2종 오류(False Negative)가 더 심각: 효과 있는 신약을 "효과 없음"으로 판정하면 치료 기회를 잃습니다. 반면 1종 오류는 추가 임상으로 확인할 수 있습니다. (단, 부작용이 심각하다면 1종 오류도 중요해집니다.)

3. 검정력 향상 방법:

  • 표본 크기 증가: 가장 직접적. nn↑ → SE↓ → 차이 감지 민감도↑
  • 유의수준 α\alpha 완화: α\alpha 크게 하면 기각역 확대 → 검정력↑ (단, 1종 오류↑)
  • 단측 검정 사용: 양측 대신 단측으로 바꾸면 검정력 증가
  • 효과 크기 큰 집단 선택: 처치 효과가 클 것으로 예상되는 하위 집단 대상
  • 측정 오차 감소: 더 정밀한 측정으로 분산↓ → SE↓

문제 4-3. 어떤 검정을 써야 할까?#

다음 시나리오별로 적절한 검정 방법을 선택하고 이유를 설명하세요.

  1. 추천 모델 적용 전후 동일 사용자 50명의 세션 시간 비교
  2. 버튼 색상 A/B 테스트 — 각 그룹 1000명, 결과는 클릭(이진)
  3. 새 정규화 방법이 기존 논문의 기준 정확도(89.3%)보다 높은지 검정
  4. 한국/미국/일본 세 지역 사용자의 평균 구매액 차이
정답 보기

1. 대응표본 t검정: 동일 사용자의 전후 측정 → 쌍(pair) 데이터. 개인 차이를 제거해 검정력 향상.

2. 이표본 비율 검정 (z검정): 결과가 이진(클릭/비클릭) → 비율 비교. 연속형 평균 비교가 아님.

3. 단일표본 t검정: 우리 모델의 표본 정확도를 알려진 단일 값(89.3%)과 비교.

4. 일원 분산분석 (One-Way ANOVA): 3개 이상 그룹의 평균 비교에는 t검정을 반복하면 다중 비교 문제 발생 → ANOVA 사용. 사후 검정(Tukey HSD 등)으로 어느 쌍이 다른지 확인.


Part 5. 종합 시나리오#

문제 5-1. ML 파이프라인의 통계적 의사결정#

신규 딥러닝 모델을 프로덕션에 배포할지 결정하는 과정을 설계하세요. 다음 질문에 모두 답하세요.

  1. 오프라인 평가: 테스트 셋 정확도가 92.1%이고, 95% CI가 [91.3%, 92.9%]일 때, 기존 모델(91.5%)보다 낫다고 할 수 있는가?
  2. 온라인 A/B 테스트: 유의수준 α=0.05\alpha=0.05, 검정력 1β=0.801-\beta=0.80, 최소 감지 효과 1%p로 계산된 표본 수만큼만 모으기로 한다. 이 숫자를 사전에 정해야 하는 이유는?
  3. A/B 결과 p값이 0.03으로 나왔다. "신모델이 이길 확률이 97%"라는 표현이 왜 틀렸는가?
정답 보기

1. CI 해석: 기존 모델 91.5%가 신모델 CI [91.3%, 92.9%] 안에 있습니다. 즉, 두 모델의 차이가 통계적으로 유의하지 않을 수 있습니다. 단정적으로 "낫다"고 할 수 없습니다. → 가설검정 또는 차이의 CI를 별도로 계산해야 합니다.

2. 표본 수 사전 확정 이유: 중간에 결과를 보고 종료하면 다중 비교 문제로 1종 오류율이 명목 5%를 훨씬 초과합니다. 사전에 정한 표본 수에 도달할 때까지만 실험 = 단일 검정 보장.

3. p값 오해: p값 0.03은 "귀무가설이 참일 때 이런 결과가 나올 확률이 3%"입니다. 이는 귀무가설의 확률이 아닙니다. "신모델이 이길 확률 97%"는 사후확률(posterior probability)로, 베이즈 통계에서 사전 분포를 정의해야만 계산할 수 있습니다. 빈도주의 p값으로는 이런 표현이 불가능합니다.


다음 글에서는 이 개념들을 Python/scipy로 직접 구현하는 코딩 과제를 다룹니다. → 코딩 과제 보기

관련 포스트