devlog.

확률의 기초와 확률 분포: 머신러닝 확률통계 1장

·14분 읽기·

이번 글부터는 확률과 통계(Probability & Statistics) 시리즈를 시작합니다. 머신러닝 모델은 본질적으로 불확실성을 다루는 도구입니다. 예측에 담긴 불확실성을 수치로 표현하고, 데이터로부터 추론하며, 모델 성능을 평가하는 모든 과정에 확률·통계가 깔려 있습니다.

이 글은 DeepLearning.AI의 Mathematics for Machine Learning and Data Science — Probability & Statistics 1주차 내용을 기반으로 정리했습니다.

이번 글에서 배우는 것#

  • 확률의 기초 — 사건, 표본공간, 여사건
  • 합의 법칙 — 독립 사건 vs 결합 사건
  • 독립성 — 곱의 법칙
  • 조건부 확률 — 사건이 주어졌을 때의 확률
  • 베이즈 정리 — 사전확률과 사후확률
  • 확률 변수와 분포 — 이산·연속 분포
  • 주요 분포 — 이항, 베르누이, 균등, 정규, 카이제곱

확률의 기초#

확률이란?#

확률(Probability) 은 어떤 사건이 일어날 가능성을 0과 1 사이의 수로 표현한 것입니다.

P(A)=사건 A가 발생하는 경우의 수전체 가능한 경우의 수P(A) = \frac{\text{사건 A가 발생하는 경우의 수}}{\text{전체 가능한 경우의 수}}

예시

  • 10명 중 3명이 축구를 한다면: P(축구)=310=30%P(\text{축구}) = \frac{3}{10} = 30\%
  • 6면 주사위에서 6이 나올 확률: P(6)=16P(6) = \frac{1}{6}
  • 동전 2번 던져 모두 앞면: P(HH)=14P(HH) = \frac{1}{4}

실험(Experiment): 불확실한 결과를 내는 모든 과정

표본공간(Sample Space): 가능한 모든 결과의 집합


여사건 (Complement)#

사건 AA일어나지 않을 확률:

P(Ac)=1P(A)P(A^c) = 1 - P(A)

예시계산
축구를 하지 않을 확률1310=7101 - \frac{3}{10} = \frac{7}{10}
주사위에서 6이 안 나올 확률116=561 - \frac{1}{6} = \frac{5}{6}
동전 3번 모두 앞면이 아닐 확률118=781 - \frac{1}{8} = \frac{7}{8}

활용: 직접 구하기 어려운 확률은 여사건을 통해 구하면 쉽습니다.


합의 법칙 — 독립 사건 (Disjoint Events)#

독립 사건(Disjoint / Mutually Exclusive): 동시에 발생할 수 없는 사건들.

P(AB)=P(A)+P(B)P(A \cup B) = P(A) + P(B)

예시

  • 주사위에서 짝수 또는 5가 나올 확률: P(짝수)=36P(\text{짝수}) = \frac{3}{6}, P(5)=16P(5) = \frac{1}{6}P(짝수 or 5)=46=23P(\text{짝수 or 5}) = \frac{4}{6} = \frac{2}{3}

합의 법칙 — 결합 사건 (Joint Events)#

결합 사건(Joint Events): 두 사건이 겹칠 수 있는 경우. 교집합을 빼야 합니다.

P(AB)=P(A)+P(B)P(AB)P(A \cup B) = P(A) + P(B) - P(A \cap B)

예시 — 축구(0.6), 농구(0.5), 둘 다(0.3):

P(축구 or 농구)=0.6+0.50.3=0.8P(\text{축구 or 농구}) = 0.6 + 0.5 - 0.3 = 0.8

핵심: 두 사건이 독립(disjoint)인지 결합(joint)인지를 먼저 파악해야 합니다. 정보가 없으면 교집합을 알 수 없으므로 확률을 구할 수 없습니다.


독립성 (Independence)#

두 사건 AA, BB독립이면 한 사건의 발생이 다른 사건의 확률에 영향을 주지 않습니다.

P(AB)=P(A)×P(B)P(A \cap B) = P(A) \times P(B)

예시

  • 동전을 5번 던져 모두 앞면: P=(12)5=132P = \left(\frac{1}{2}\right)^5 = \frac{1}{32}
  • 주사위를 10번 던져 모두 6: P=(16)10P = \left(\frac{1}{6}\right)^{10}

독립성 가정은 계산을 크게 단순화합니다. 나이브 베이즈 분류기가 이 가정에 기반합니다.

생일 문제 (Birthday Problem)#

30명이 있을 때 적어도 2명의 생일이 같을 확률은?

직관적으로 낮아 보이지만, 실제로는 70% 이상입니다.

여사건으로 계산:

P(같은 생일 있음)=1P(모두 다른 생일)P(\text{같은 생일 있음}) = 1 - P(\text{모두 다른 생일})

P(모두 다름)=365365×364365×363365××3363650.294P(\text{모두 다름}) = \frac{365}{365} \times \frac{364}{365} \times \frac{363}{365} \times \cdots \times \frac{336}{365} \approx 0.294

P(같은 생일 있음)10.294=0.706P(\text{같은 생일 있음}) \approx 1 - 0.294 = 0.706

교훈: 확률에 대한 직관은 종종 틀립니다. 수식으로 직접 계산하는 것이 중요합니다.


조건부 확률 (Conditional Probability)#

개념#

조건부 확률: 사건 BB 가 이미 발생했을 때 사건 AA 가 발생할 확률.

P(AB)=P(AB)P(B)P(A \mid B) = \frac{P(A \cap B)}{P(B)}

표기법: P(AB)P(A \mid B) ("B가 주어졌을 때 A의 확률")

예시 — 동전 2번:

  • P(HH첫 번째 H)P(HH \mid \text{첫 번째 H}) = 12\frac{1}{2} (첫 번째가 H면 두 번째만 H이면 됨)
  • P(HH첫 번째 T)P(HH \mid \text{첫 번째 T}) = 0 (첫 번째가 T면 HH 불가능)

곱의 법칙 (Product Rule)#

독립이 아닌 사건에서 교집합 확률:

P(AB)=P(A)×P(BA)P(A \cap B) = P(A) \times P(B \mid A)

예시 — 축구를 하는 학생(40%) 중 80%가 런닝화를 신는다면:

P(축구런닝화)=0.4×0.8=0.32P(\text{축구} \cap \text{런닝화}) = 0.4 \times 0.8 = 0.32

랜덤(독립) vs 비랜덤(종속): 사건들이 관련되어 있으면 종속 사건이고, 조건부 확률을 써야 합니다.


베이즈 정리 (Bayes' Theorem)#

수식#

P(AB)=P(BA)P(A)P(B)\boxed{P(A \mid B) = \frac{P(B \mid A) \cdot P(A)}{P(B)}}

용어의미
P(A)P(A)사전확률 (Prior) — 아무 정보 없이 알고 있는 기본 확률
P(AB)P(A \mid B)사후확률 (Posterior) — 추가 정보 BB 를 반영한 갱신된 확률
P(BA)P(B \mid A)우도 (Likelihood) — A가 주어졌을 때 B가 관측될 확률
P(B)P(B)증거 (Evidence) — B가 관측될 전체 확률

스팸 메일 예시#

  • 이메일 중 20%가 스팸: P(spam)=0.2P(\text{spam}) = 0.2
  • 스팸 메일의 40%에 "lottery" 포함: P(lotteryspam)=0.4P(\text{lottery} \mid \text{spam}) = 0.4
  • 전체 메일의 10%에 "lottery" 포함: P(lottery)=0.1P(\text{lottery}) = 0.1

P(spamlottery)=0.4×0.20.1=0.8P(\text{spam} \mid \text{lottery}) = \frac{0.4 \times 0.2}{0.1} = 0.8

"lottery"가 포함된 메일이 스팸일 확률은 80%. 사전확률 20%에서 80%로 크게 갱신됩니다.

나이브 베이즈 (Naive Bayes)#

여러 피처가 있을 때 모든 피처가 독립이라고 가정하면:

P(AB1,B2,,Bn)P(A)P(B1A)P(B2A)P(BnA)P(A \mid B_1, B_2, \ldots, B_n) \propto P(A) \cdot P(B_1 \mid A) \cdot P(B_2 \mid A) \cdots P(B_n \mid A)

나이브(Naive) 한 이유: 현실에서 피처들은 완전 독립이 아니지만, 이 가정 덕분에:

  • 계산이 매우 단순해짐
  • 데이터가 적어도 잘 작동
  • 텍스트 분류(스팸 필터)에서 특히 효과적

확률 변수와 확률 분포#

확률 변수 (Random Variable)#

확률 변수: 실험의 결과를 숫자로 나타내는 변수.

유형설명예시
이산형 (Discrete)셀 수 있는 유한한 값동전 앞면 횟수, 주사위 눈
연속형 (Continuous)구간 내 무한한 값키, 온도, 대기 시간

이산 확률 분포#

이항 분포 (Binomial Distribution)#

nn 번 독립 시행에서 성공 확률이 pp 일 때, 정확히 kk 번 성공할 확률:

P(X=k)=(nk)pk(1p)nkP(X = k) = \binom{n}{k} p^k (1-p)^{n-k}

이항 계수 (Binomial Coefficient):

(nk)=n!k!(nk)!\binom{n}{k} = \frac{n!}{k!(n-k)!}

nn개 중 순서 없이 kk개를 뽑는 경우의 수.

예시 — 주사위를 5번 던져 1이 정확히 3번 나올 확률:

P(X=3)=(53)(16)3(56)2P(X=3) = \binom{5}{3} \left(\frac{1}{6}\right)^3 \left(\frac{5}{6}\right)^2

성질:

  • p=0.5p = 0.5 → 대칭적인 분포
  • p0.5p \neq 0.5 → 한쪽으로 치우친 분포
  • nn 이 커지면 정규 분포에 수렴

베르누이 분포 (Bernoulli Distribution)#

이항 분포의 특수 경우 (n=1n = 1). 성공/실패 두 가지 결과만 있는 단일 시행.

P(X=k)={pk=1 (성공)1pk=0 (실패)P(X = k) = \begin{cases} p & k = 1 \text{ (성공)} \\ 1 - p & k = 0 \text{ (실패)} \end{cases}

예시: 4면 주사위에서 2가 나올 확률 → Bernoulli(p=14)\text{Bernoulli}(p = \frac{1}{4})

베르누이 분포 = 이항 분포 Binomial(1,p)\text{Binomial}(1, p)


연속 확률 분포#

확률 밀도 함수 (PDF)#

연속 확률 변수에서는 특정 값의 확률 = 0 (점의 면적 = 0). 대신 구간의 확률을 구합니다.

P(aXb)=abf(x)dxP(a \leq X \leq b) = \int_a^b f(x) \, dx

f(x)f(x): 확률 밀도 함수 (Probability Density Function)

성질:

  • f(x)0f(x) \geq 0
  • f(x)dx=1\int_{-\infty}^{\infty} f(x) \, dx = 1 (전체 면적 = 1)

이산: PMF (확률 질량 함수) ↔ 연속: PDF (확률 밀도 함수)

누적 분포 함수 (CDF)#

F(x)=P(Xx)=xf(t)dtF(x) = P(X \leq x) = \int_{-\infty}^{x} f(t) \, dt

성질:

  • 항상 0에서 시작, 1에서 끝남
  • 단조 증가 (절대 감소하지 않음)
  • 이산: 계단 모양 / 연속: 부드러운 곡선

CDF를 활용하면 분포에서 샘플링이 쉬워집니다. [0,1][0,1] 균등 분포에서 값을 뽑아 CDF 역함수를 적용하면 원하는 분포에서의 샘플을 얻습니다.


균등 분포 (Uniform Distribution)#

구간 [a,b][a, b] 내 모든 값이 동일한 확률을 가지는 분포.

f(x)=1ba,axbf(x) = \frac{1}{b - a}, \quad a \leq x \leq b

파라미터: aa (시작), bb (끝)

예시: 전화 대기 시간이 0~5분 사이 균등 분포 → P(2X3)=15=20%P(2 \leq X \leq 3) = \frac{1}{5} = 20\%


정규 분포 (Normal / Gaussian Distribution)#

머신러닝에서 가장 많이 쓰이는 분포. 자연 현상(키, 측정 오차 등)에 자주 등장합니다.

f(x)=1σ2πe(xμ)22σ2f(x) = \frac{1}{\sigma\sqrt{2\pi}} e^{-\frac{(x-\mu)^2}{2\sigma^2}}

파라미터:

  • μ\mu (뮤): 평균 — 분포의 위치 결정
  • σ\sigma (시그마): 표준편차 — 분포의 너비 결정

표준 정규 분포: μ=0\mu = 0, σ=1\sigma = 1ZN(0,1)Z \sim N(0, 1)

표준화 (Standardization):

Z=XμσZ = \frac{X - \mu}{\sigma}

서로 다른 단위와 범위의 변수를 비교할 때 사용합니다. 머신러닝에서 피처 스케일링의 이론적 근거입니다.

68-95-99.7 법칙:

  • μ±1σ\mu \pm 1\sigma 내에 약 68% 데이터
  • μ±2σ\mu \pm 2\sigma 내에 약 95% 데이터
  • μ±3σ\mu \pm 3\sigma 내에 약 99.7% 데이터

카이제곱 분포 (Chi-Squared Distribution)#

kk개의 독립적인 표준 정규 변수 ZiZ_i 를 제곱해 합한 분포:

χk2=Z12+Z22++Zk2\chi^2_k = Z_1^2 + Z_2^2 + \cdots + Z_k^2

파라미터: kk (자유도, degrees of freedom)

성질:

  • kk 가 작으면 0 근처에 집중, 오른쪽으로 치우침
  • kk 가 커지면 더 넓게 퍼지고 대칭에 가까워짐

머신러닝 활용:

  • 가설 검정 (독립성 검정, 적합도 검정)
  • 신호 노이즈 모델링 (노이즈 제곱의 합)

핵심 정리#

개념공식 / 설명
기본 확률P(A)=유리한 경우전체 경우P(A) = \frac{\text{유리한 경우}}{\text{전체 경우}}
여사건P(Ac)=1P(A)P(A^c) = 1 - P(A)
독립 사건 합P(AB)=P(A)+P(B)P(A \cup B) = P(A) + P(B)
결합 사건 합P(AB)=P(A)+P(B)P(AB)P(A \cup B) = P(A) + P(B) - P(A \cap B)
독립 곱P(AB)=P(A)P(B)P(A \cap B) = P(A) \cdot P(B)
조건부 확률P(AB)=P(AB)P(B)P(A \mid B) = \frac{P(A \cap B)}{P(B)}
베이즈 정리P(AB)=P(BA)P(A)P(B)P(A \mid B) = \frac{P(B \mid A) \cdot P(A)}{P(B)}
이항 분포P(X=k)=(nk)pk(1p)nkP(X=k) = \binom{n}{k}p^k(1-p)^{n-k}
정규 분포f(x)=1σ2πe(xμ)22σ2f(x) = \frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}


퀴즈#

Q1. 공정한 동전을 2번 던질 때 앞면과 뒷면이 순서 무관하게 하나씩 나올 확률은?

정답 보기

가능한 결과: HH, HT, TH, TT (4가지)

앞면·뒷면이 하나씩인 경우: HT, TH (2가지)

P=24=12P = \frac{2}{4} = \frac{1}{2}


Q2. 두 주사위를 던졌을 때 합이 10이 될 확률은?

정답 보기

전체 경우: 6×6=366 \times 6 = 36

합이 10인 경우: (4,6),(5,5),(6,4)(4,6), (5,5), (6,4) → 3가지

P=336=112P = \frac{3}{36} = \frac{1}{12}


Q3. 다음 상황에서 P(발열 or 두통)P(\text{발열 or 두통}) 을 구할 수 있나요?

100명의 환자 중 50명이 두통, 50명이 발열을 경험했습니다.

  1. 구할 수 없다
  2. P=1.0P = 1.0
  3. P=0.25P = 0.25
정답 보기

1번 — 구할 수 없다

두통과 발열이 동시에 발생한 환자 수(P(AB)P(A \cap B))를 모르기 때문입니다.

P(AB)=P(A)+P(B)P(AB)=0.5+0.5?P(A \cup B) = P(A) + P(B) - P(A \cap B) = 0.5 + 0.5 - ?

결합 사건에서는 교집합 정보가 반드시 필요합니다.


Q4. 공장에서 제품 A(70%)와 B(30%)를 생산합니다. 품질 검사 통과율은 A가 80%, B가 90%입니다. 품질 검사를 통과한 제품이 A일 확률은?

정답 보기

베이즈 정리 적용:

P(A통과)=P(통과A)P(A)P(통과)P(A \mid \text{통과}) = \frac{P(\text{통과} \mid A) \cdot P(A)}{P(\text{통과})}

분자: P(통과A)P(A)=0.8×0.7=0.56P(\text{통과} \mid A) \cdot P(A) = 0.8 \times 0.7 = 0.56

분모 (전체 통과 확률): P(통과)=0.8×0.7+0.9×0.3=0.56+0.27=0.83P(\text{통과}) = 0.8 \times 0.7 + 0.9 \times 0.3 = 0.56 + 0.27 = 0.83

결과: P(A통과)=0.560.830.675=67.5%P(A \mid \text{통과}) = \frac{0.56}{0.83} \approx 0.675 = 67.5\%

사전확률 70%에서 67.5%로 소폭 감소했습니다 (B의 검사 통과율이 더 높으므로).


Q5. 주사위 하나에서 홀수 또는 소수가 나올 확률은?

정답 보기
  • 홀수: {1,3,5}\{1, 3, 5\}P=36=12P = \frac{3}{6} = \frac{1}{2}
  • 소수: {2,3,5}\{2, 3, 5\}P=36=12P = \frac{3}{6} = \frac{1}{2}
  • 교집합 (홀수이면서 소수): {3,5}\{3, 5\}P=26=13P = \frac{2}{6} = \frac{1}{3}

결합 사건 합의 법칙:

P(홀수 or 소수)=12+1213=113=23P(\text{홀수 or 소수}) = \frac{1}{2} + \frac{1}{2} - \frac{1}{3} = 1 - \frac{1}{3} = \frac{2}{3}


다음 글에서는 기댓값과 분산, 왜도·첨도, 공분산과 상관계수, 그리고 다변수 정규 분포를 다룰 예정입니다.

관련 포스트