devlog.

기댓값, 분산, 공분산: 머신러닝 확률통계 2장

·12분 읽기·

1장에서는 확률의 기초와 주요 확률 분포를 배웠습니다. 이번 글에서는 분포를 숫자로 요약하는 통계량(기댓값·분산·왜도·첨도)과 두 변수 이상의 관계를 다루는 결합 분포·공분산·상관계수를 다룹니다.

이 글은 DeepLearning.AI의 Mathematics for Machine Learning and Data Science — Probability & Statistics 2주차 내용을 기반으로 정리했습니다.

이번 글에서 배우는 것#

  • 기댓값 — 가중 평균으로 이해하는 평균
  • 분산과 표준편차 — 데이터의 퍼짐 측정
  • 왜도와 첨도 — 분포 모양의 고차 모멘트
  • 시각화 — 분위수, 박스플롯, KDE, QQ 플롯
  • 결합 분포 — 두 변수의 동시 분포
  • 주변 분포 / 조건부 분포
  • 공분산과 상관계수
  • 다변수 정규 분포

기댓값 (Expected Value)#

기댓값 = 가중 평균#

기댓값(Expected Value) 은 확률 변수의 장기적 평균입니다. 각 값에 확률(가중치)을 곱해 합산합니다.

이산형:

E[X]=ixiP(X=xi)E[X] = \sum_i x_i \cdot P(X = x_i)

연속형:

E[X]=xf(x)dxE[X] = \int_{-\infty}^{\infty} x \cdot f(x) \, dx

예시 — 동전 게임: 앞면 10달러, 뒷면 0달러:

E[상금]=10×12+0×12=5 달러E[\text{상금}] = 10 \times \frac{1}{2} + 0 \times \frac{1}{2} = 5 \text{ 달러}

→ 이 게임에 지불할 용의가 있는 최대 금액 = 5달러

기댓값의 선형 성질#

E[aX+b]=aE[X]+bE[aX + b] = a \cdot E[X] + b

E[X+Y]=E[X]+E[Y](독립 여부 무관)E[X + Y] = E[X] + E[Y] \quad \text{(독립 여부 무관)}

예시 — 동전(기댓값 0.5달러) + 주사위(기댓값 3.5달러) 게임:

E[총 상금]=0.5+3.5=4 달러E[\text{총 상금}] = 0.5 + 3.5 = 4 \text{ 달러}

균등 분포의 기댓값#

균등 분포 Uniform(a,b)\text{Uniform}(a, b) 에서:

E[X]=a+b2(양 끝점의 중간)E[X] = \frac{a + b}{2} \quad \text{(양 끝점의 중간)}

분포가 비대칭이면 평균이 중간에 위치하지 않습니다 → 이때는 중앙값(median) 이 더 적합합니다.


집중 경향의 척도#

척도정의이상치 민감도
평균 (Mean)합 ÷ 개수높음
중앙값 (Median)정렬 후 가운데 값낮음
최빈값 (Mode)가장 자주 나오는 값없음

다중봉 분포 (Multimodal): 최빈값이 2개 이상인 분포.

실무: 소득·집값 같은 오른쪽 꼬리가 긴 데이터에는 평균보다 중앙값이 더 대표적입니다.


분산과 표준편차#

분산 (Variance)#

분포의 퍼짐(spread) 을 측정합니다.

Var(X)=E[(XE[X])2]=E[X2](E[X])2\text{Var}(X) = E[(X - E[X])^2] = E[X^2] - (E[X])^2

이산형:

Var(X)=i(xiμ)2P(X=xi)\text{Var}(X) = \sum_i (x_i - \mu)^2 \cdot P(X = x_i)

분산의 성질:

Var(aX+b)=a2Var(X)\text{Var}(aX + b) = a^2 \cdot \text{Var}(X)

  • 상수 bb 를 더해도 분산은 변하지 않음 (위치만 이동)
  • 상수 aa 를 곱하면 분산은 a2a^2

표준편차 (Standard Deviation)#

σ=Var(X)\sigma = \sqrt{\text{Var}(X)}

  • 분산의 단위가 unit2\text{unit}^2 이라 해석이 어려움 → 제곱근을 취해 원래 단위로 복원
  • 정규 분포에서 68-95-99.7 법칙: μ±1σ\mu \pm 1\sigma / ±2σ\pm 2\sigma / ±3σ\pm 3\sigma

정규 분포의 합 (Sum of Gaussians)#

독립인 두 정규 분포의 합도 정규 분포입니다:

XN(μ1,σ12),YN(μ2,σ22)X \sim N(\mu_1, \sigma_1^2), \quad Y \sim N(\mu_2, \sigma_2^2)

X+YN(μ1+μ2,σ12+σ22)X + Y \sim N(\mu_1 + \mu_2, \, \sigma_1^2 + \sigma_2^2)

스케일 aa 를 곱하면:

aXN(aμ1,a2σ12)aX \sim N(a\mu_1, \, a^2\sigma_1^2)


왜도와 첨도 — 분포의 모멘트#

모멘트 (Moments)#

nn차 모멘트: E[Xn]E[X^n]

모멘트이름의미
1차평균 (Mean)분포의 위치
2차분산 (Variance)분포의 퍼짐
3차왜도 (Skewness)분포의 비대칭
4차첨도 (Kurtosis)꼬리의 두께

왜도 (Skewness)#

Skewness=E[(Xμσ)3]\text{Skewness} = E\left[\left(\frac{X - \mu}{\sigma}\right)^3\right]

  • 양의 왜도 (Right-skewed): 오른쪽 꼬리가 긴 분포 (소득 분포, 집값 등)
  • 음의 왜도 (Left-skewed): 왼쪽 꼬리가 긴 분포
  • 대칭 분포: 왜도 = 0

평균·분산이 같아도 왜도로 분포의 차이를 구별할 수 있습니다.

첨도 (Kurtosis)#

Kurtosis=E[(Xμσ)4]\text{Kurtosis} = E\left[\left(\frac{X - \mu}{\sigma}\right)^4\right]

  • 첨도가 높음: 꼬리가 두껍고 중앙이 날카로움 → 극단값(이상치)이 많음
  • 첨도가 낮음: 꼬리가 얇고 중앙이 평평함

왜도와 첨도가 같을 때도 분포 모양이 다를 수 있어 추가 지표가 필요합니다.


분포 시각화#

분위수와 박스플롯 (Quantiles & Box-Plot)#

분위수: 데이터를 정렬했을 때 특정 비율 위치의 값

박스플롯 구성 요소:

요소설명
최솟값이상치 제외 최소
Q1 (25%)1사분위수
Q2 (50%)중앙값
Q3 (75%)3사분위수
최댓값이상치 제외 최대
IQRQ3Q1Q3 - Q1 (사분위 범위)

커널 밀도 추정 (KDE, Kernel Density Estimation)#

히스토그램의 단점(불연속)을 보완해 부드러운 PDF 추정을 제공합니다. 각 데이터 포인트에 작은 가우시안(커널)을 놓고 합산합니다.

바이올린 플롯 (Violin Plot): KDE + 박스플롯을 결합한 시각화.

QQ 플롯 (Quantile-Quantile Plot)#

데이터가 정규 분포를 따르는지 시각적으로 확인하는 방법.

  • 점들이 대각선에 가까울수록 → 정규 분포에 가까움
  • 점들이 곡선 형태 → 비정규 분포 (왜도 존재)

다변수 확률 분포#

결합 분포 (Joint Distribution)#

두 확률 변수 XX, YY 의 동시 확률:

이산형:

P(X=x,Y=y)=pXY(x,y)P(X = x, Y = y) = p_{XY}(x, y)

독립인 경우:

P(X=x,Y=y)=P(X=x)P(Y=y)P(X = x, Y = y) = P(X = x) \cdot P(Y = y)

종속인 경우: 관측 빈도를 표로 정리해 각 셀의 확률을 계산합니다.

연속형: 2차원 PDF f(x,y)f(x, y) 로 표현하며 히스토그램, 히트맵, 산점도, 밀도 플롯으로 시각화합니다.

주변 분포 (Marginal Distribution)#

특정 변수 하나에 초점을 맞춰 다른 변수를 합산(적분) 한 분포.

pY(y)=xpXY(x,y)(이산형)p_Y(y) = \sum_x p_{XY}(x, y) \quad \text{(이산형)}

fY(y)=fXY(x,y)dx(연속형)f_Y(y) = \int_{-\infty}^{\infty} f_{XY}(x, y) \, dx \quad \text{(연속형)}

직관: 결합 분포 표에서 행(또는 열)의 합을 구하는 것.

조건부 분포 (Conditional Distribution)#

특정 변수의 값이 주어졌을 때 다른 변수의 분포.

pYX(yx)=pXY(x,y)pX(x)p_{Y|X}(y \mid x) = \frac{p_{XY}(x, y)}{p_X(x)}

주변 분포로 정규화하는 것이 핵심입니다 (조건부 확률의 확장).

직관: 결합 분포 표에서 특정 행(또는 열)을 해당 행(열)의 합으로 나눈 것.


공분산과 상관계수#

공분산 (Covariance)#

두 변수가 같은 방향으로 움직이는지 측정합니다.

Cov(X,Y)=E[(XμX)(YμY)]=E[XY]μXμY\text{Cov}(X, Y) = E[(X - \mu_X)(Y - \mu_Y)] = E[XY] - \mu_X \mu_Y

부호의미
Cov>0\text{Cov} > 0X가 증가할 때 Y도 증가 (양의 관계)
Cov<0\text{Cov} < 0X가 증가할 때 Y는 감소 (음의 관계)
Cov=0\text{Cov} = 0선형 관계 없음

한계: 단위에 의존해 크기만으로 관계의 강도를 비교할 수 없습니다.

공분산 행렬 (Covariance Matrix)#

nn개 변수의 공분산을 행렬로 정리:

\text{Var}(X_1) & \text{Cov}(X_1, X_2) & \cdots \\ \text{Cov}(X_2, X_1) & \text{Var}(X_2) & \cdots \\ \vdots & \vdots & \ddots \end{bmatrix}$$ - **대각 원소**: 각 변수의 분산 - **비대각 원소**: 두 변수 간 공분산 - 항상 **대칭 행렬** (PCA의 핵심 행렬) ### 상관계수 (Correlation Coefficient) 공분산을 표준화해 단위 의존성을 제거합니다. $$\rho_{XY} = \frac{\text{Cov}(X, Y)}{\sigma_X \cdot \sigma_Y}$$ $$-1 \leq \rho \leq 1$$ | 값 | 의미 | |---|---| | $\rho = 1$ | 완전 양의 선형 관계 | | $\rho = 0$ | 선형 관계 없음 | | $\rho = -1$ | 완전 음의 선형 관계 | > **공분산** = 관계의 방향 / **상관계수** = 방향 + 강도 --- ## 다변수 정규 분포 (Multivariate Gaussian) 1변수 정규 분포를 $n$차원으로 확장: $$f(\mathbf{x}) = \frac{1}{(2\pi)^{n/2} |\Sigma|^{1/2}} \exp\left(-\frac{1}{2}(\mathbf{x} - \boldsymbol{\mu})^T \Sigma^{-1} (\mathbf{x} - \boldsymbol{\mu})\right)$$ - $\boldsymbol{\mu}$: 평균 벡터 - $\Sigma$: 공분산 행렬 **독립인 경우**: $\Sigma$ 가 대각 행렬 → 등고선이 원형 **종속인 경우**: $\Sigma$ 에 공분산 항 존재 → 등고선이 타원형 (기울어짐) > 행렬식 $|\Sigma|$ 가 클수록 분포가 넓게 퍼집니다. --- ## 핵심 정리 | 개념 | 공식 / 설명 | |---|---| | **기댓값** | $E[X] = \sum x_i P(x_i)$ | | **분산** | $\text{Var}(X) = E[(X-\mu)^2]$ | | **표준편차** | $\sigma = \sqrt{\text{Var}(X)}$ | | **왜도** | 3차 표준화 모멘트, 비대칭 방향 | | **첨도** | 4차 표준화 모멘트, 꼬리 두께 | | **주변 분포** | 결합 분포를 한 변수로 합산 | | **조건부 분포** | 주변 분포로 정규화 | | **공분산** | $E[(X-\mu_X)(Y-\mu_Y)]$ | | **상관계수** | $\text{Cov}/(\sigma_X \sigma_Y) \in [-1,1]$ | --- <br /> ## 퀴즈 **Q1. 동전 3번 던져 앞면당 1달러를 받는 게임의 기댓값은?** <details> <summary>정답 보기</summary> $$E[X] = 0 \times \frac{1}{8} + 1 \times \frac{3}{8} + 2 \times \frac{3}{8} + 3 \times \frac{1}{8} = \frac{0+3+6+3}{8} = \frac{12}{8} = 1.5 \text{ 달러}$$ 또는 선형성으로: $E[X] = 3 \times E[\text{동전 1번}] = 3 \times 0.5 = 1.5$ </details> --- **Q2. $\text{Var}(X) = 4$ 일 때 $\text{Var}(3X + 5)$ 는?** <details> <summary>정답 보기</summary> $$\text{Var}(3X + 5) = 3^2 \cdot \text{Var}(X) = 9 \times 4 = 36$$ 상수 5는 분산에 영향을 주지 않습니다 (위치만 이동). </details> --- **Q3. 다음 박스플롯 해석에서 옳은 것은?** 두 클래스 A, B의 시험 점수 박스플롯에서 A의 중앙값이 75, B의 중앙값이 85, A의 박스(IQR)가 B보다 크다면: 1. B의 IQR이 A보다 크다 2. B의 중앙값이 A보다 높다 3. A의 중앙값이 B보다 높다 <details> <summary>정답 보기</summary> **2번** — B의 중앙값(85)이 A(75)보다 높습니다. IQR은 A가 B보다 크므로 1번은 틀렸습니다. A의 중앙값(75)은 B(85)보다 낮으므로 3번도 틀렸습니다. </details> --- **Q4. 공분산이 0이면 두 변수는 독립인가요?** <details> <summary>정답 보기</summary> **반드시 그렇지는 않습니다.** 공분산은 **선형 관계**만 측정합니다. $Y = X^2$ 처럼 비선형 관계에서는 공분산이 0이어도 두 변수는 강한 종속 관계를 가질 수 있습니다. 단, 다변수 정규 분포에서는 $\text{Cov} = 0 \Leftrightarrow$ 독립이 성립합니다. </details> --- **Q5. QQ 플롯에서 점들이 대각선 위/아래로 S자 곡선을 그리면?** <details> <summary>정답 보기</summary> 데이터가 **정규 분포를 따르지 않습니다**. 구체적으로: - S자 곡선 → 왜도(skewness)가 있는 분포 - 양 끝이 대각선 위/아래로 벌어짐 → 꼬리가 두꺼운 분포(높은 첨도) 점들이 대각선에 가깝게 분포해야 정규 분포에 가깝다고 판단합니다. </details> --- 다음 글에서는 **모집단과 표본**, **대수의 법칙**, **중심극한정리**, **MLE**, 그리고 **MAP와 베이즈 통계**를 다룰 예정입니다.

관련 포스트