기댓값, 분산, 공분산: 머신러닝 확률통계 2장

모멘트	이름	의미
1차	평균 (Mean)	분포의 위치
2차	분산 (Variance)	분포의 퍼짐
3차	왜도 (Skewness)	분포의 비대칭
4차	첨도 (Kurtosis)	꼬리의 두께

왜도 (Skewness)#

$\text{Skewness} = E\left[\left(\frac{X - \mu}{\sigma}\right)^3\right]$

양의 왜도 (Right-skewed): 오른쪽 꼬리가 긴 분포 (소득 분포, 집값 등)
음의 왜도 (Left-skewed): 왼쪽 꼬리가 긴 분포
대칭 분포: 왜도 = 0

평균·분산이 같아도 왜도로 분포의 차이를 구별할 수 있습니다.

첨도 (Kurtosis)#

$\text{Kurtosis} = E\left[\left(\frac{X - \mu}{\sigma}\right)^4\right]$

첨도가 높음: 꼬리가 두껍고 중앙이 날카로움 → 극단값(이상치)이 많음
첨도가 낮음: 꼬리가 얇고 중앙이 평평함

왜도와 첨도가 같을 때도 분포 모양이 다를 수 있어 추가 지표가 필요합니다.

분포 시각화#

분위수와 박스플롯 (Quantiles & Box-Plot)#

분위수: 데이터를 정렬했을 때 특정 비율 위치의 값

박스플롯 구성 요소:

요소	설명
최솟값	이상치 제외 최소
Q1 (25%)	1사분위수
Q2 (50%)	중앙값
Q3 (75%)	3사분위수
최댓값	이상치 제외 최대
IQR	$Q3 - Q1$ (사분위 범위)

커널 밀도 추정 (KDE, Kernel Density Estimation)#

히스토그램의 단점(불연속)을 보완해 부드러운 PDF 추정을 제공합니다. 각 데이터 포인트에 작은 가우시안(커널)을 놓고 합산합니다.

바이올린 플롯 (Violin Plot): KDE + 박스플롯을 결합한 시각화.

QQ 플롯 (Quantile-Quantile Plot)#

데이터가 정규 분포를 따르는지 시각적으로 확인하는 방법.

점들이 대각선에 가까울수록 → 정규 분포에 가까움
점들이 곡선 형태 → 비정규 분포 (왜도 존재)

다변수 확률 분포#

결합 분포 (Joint Distribution)#

두 확률 변수 $X$ , $Y$ 의 동시 확률:

이산형:

$P(X = x, Y = y) = p_{XY}(x, y)$

독립인 경우:

$P(X = x, Y = y) = P(X = x) \cdot P(Y = y)$

종속인 경우: 관측 빈도를 표로 정리해 각 셀의 확률을 계산합니다.

연속형: 2차원 PDF $f(x, y)$ 로 표현하며 히스토그램, 히트맵, 산점도, 밀도 플롯으로 시각화합니다.

주변 분포 (Marginal Distribution)#

특정 변수 하나에 초점을 맞춰 다른 변수를 합산(적분) 한 분포.

$p_Y(y) = \sum_x p_{XY}(x, y) \quad \text{(이산형)}$

$f_Y(y) = \int_{-\infty}^{\infty} f_{XY}(x, y) \, dx \quad \text{(연속형)}$

직관: 결합 분포 표에서 행(또는 열)의 합을 구하는 것.

조건부 분포 (Conditional Distribution)#

특정 변수의 값이 주어졌을 때 다른 변수의 분포.

$p_{Y|X}(y \mid x) = \frac{p_{XY}(x, y)}{p_X(x)}$

주변 분포로 정규화하는 것이 핵심입니다 (조건부 확률의 확장).

직관: 결합 분포 표에서 특정 행(또는 열)을 해당 행(열)의 합으로 나눈 것.

공분산과 상관계수#

공분산 (Covariance)#

두 변수가 같은 방향으로 움직이는지 측정합니다.

$\text{Cov}(X, Y) = E[(X - \mu_X)(Y - \mu_Y)] = E[XY] - \mu_X \mu_Y$

부호	의미
$\text{Cov} > 0$	X가 증가할 때 Y도 증가 (양의 관계)
$\text{Cov} < 0$	X가 증가할 때 Y는 감소 (음의 관계)
$\text{Cov} = 0$	선형 관계 없음

한계: 단위에 의존해 크기만으로 관계의 강도를 비교할 수 없습니다.

공분산 행렬 (Covariance Matrix)#

$n$ 개 변수의 공분산을 행렬로 정리:

\text{Var}(X_1) & \text{Cov}(X_1, X_2) & \cdots \\ \text{Cov}(X_2, X_1) & \text{Var}(X_2) & \cdots \\ \vdots & \vdots & \ddots \end{bmatrix}$$ - **대각 원소**: 각 변수의 분산 - **비대각 원소**: 두 변수 간 공분산 - 항상 **대칭 행렬** (PCA의 핵심 행렬) ### 상관계수 (Correlation Coefficient) 공분산을 표준화해 단위 의존성을 제거합니다. <br /> $$\rho_{XY} = \frac{\text{Cov}(X, Y)}{\sigma_X \cdot \sigma_Y}$$ <br /> $$-1 \leq \rho \leq 1$$ | 값 | 의미 | |---|---| | $\rho = 1$ | 완전 양의 선형 관계 | | $\rho = 0$ | 선형 관계 없음 | | $\rho = -1$ | 완전 음의 선형 관계 | > **공분산** = 관계의 방향 / **상관계수** = 방향 + 강도 --- ## 다변수 정규 분포 (Multivariate Gaussian) 1변수 정규 분포를 $n$차원으로 확장: <br /> $$f(\mathbf{x}) = \frac{1}{(2\pi)^{n/2} |\Sigma|^{1/2}} \exp\left(-\frac{1}{2}(\mathbf{x} - \boldsymbol{\mu})^T \Sigma^{-1} (\mathbf{x} - \boldsymbol{\mu})\right)$$ <br /> - $\boldsymbol{\mu}$: 평균 벡터 - $\Sigma$: 공분산 행렬 **독립인 경우**: $\Sigma$ 가 대각 행렬 → 등고선이 원형 **종속인 경우**: $\Sigma$ 에 공분산 항 존재 → 등고선이 타원형 (기울어짐) > 행렬식 $|\Sigma|$ 가 클수록 분포가 넓게 퍼집니다. --- ## 핵심 정리 | 개념 | 공식 / 설명 | |---|---| | **기댓값** | $E[X] = \sum x_i P(x_i)$ | | **분산** | $\text{Var}(X) = E[(X-\mu)^2]$ | | **표준편차** | $\sigma = \sqrt{\text{Var}(X)}$ | | **왜도** | 3차 표준화 모멘트, 비대칭 방향 | | **첨도** | 4차 표준화 모멘트, 꼬리 두께 | | **주변 분포** | 결합 분포를 한 변수로 합산 | | **조건부 분포** | 주변 분포로 정규화 | | **공분산** | $E[(X-\mu_X)(Y-\mu_Y)]$ | | **상관계수** | $\text{Cov}/(\sigma_X \sigma_Y) \in [-1,1]$ | --- <br /> ## 퀴즈 **Q1. 동전 3번 던져 앞면당 1달러를 받는 게임의 기댓값은?** <details> <summary>정답 보기</summary> <br /> $$E[X] = 0 \times \frac{1}{8} + 1 \times \frac{3}{8} + 2 \times \frac{3}{8} + 3 \times \frac{1}{8} = \frac{0+3+6+3}{8} = \frac{12}{8} = 1.5 \text{ 달러}$$ <br /> 또는 선형성으로: $E[X] = 3 \times E[\text{동전 1번}] = 3 \times 0.5 = 1.5$ </details> --- **Q2. $\text{Var}(X) = 4$ 일 때 $\text{Var}(3X + 5)$ 는?** <details> <summary>정답 보기</summary> <br /> $$\text{Var}(3X + 5) = 3^2 \cdot \text{Var}(X) = 9 \times 4 = 36$$ <br /> 상수 5는 분산에 영향을 주지 않습니다 (위치만 이동). </details> --- **Q3. 다음 박스플롯 해석에서 옳은 것은?** 두 클래스 A, B의 시험 점수 박스플롯에서 A의 중앙값이 75, B의 중앙값이 85, A의 박스(IQR)가 B보다 크다면: 1. B의 IQR이 A보다 크다 2. B의 중앙값이 A보다 높다 3. A의 중앙값이 B보다 높다 <details> <summary>정답 보기</summary> **2번** — B의 중앙값(85)이 A(75)보다 높습니다. IQR은 A가 B보다 크므로 1번은 틀렸습니다. A의 중앙값(75)은 B(85)보다 낮으므로 3번도 틀렸습니다. </details> --- **Q4. 공분산이 0이면 두 변수는 독립인가요?** <details> <summary>정답 보기</summary> **반드시 그렇지는 않습니다.** 공분산은 **선형 관계**만 측정합니다. $Y = X^2$ 처럼 비선형 관계에서는 공분산이 0이어도 두 변수는 강한 종속 관계를 가질 수 있습니다. 단, 다변수 정규 분포에서는 $\text{Cov} = 0 \Leftrightarrow$ 독립이 성립합니다. </details> --- **Q5. QQ 플롯에서 점들이 대각선 위/아래로 S자 곡선을 그리면?** <details> <summary>정답 보기</summary> 데이터가 **정규 분포를 따르지 않습니다**. 구체적으로: - S자 곡선 → 왜도(skewness)가 있는 분포 - 양 끝이 대각선 위/아래로 벌어짐 → 꼬리가 두꺼운 분포(높은 첨도) 점들이 대각선에 가깝게 분포해야 정규 분포에 가깝다고 판단합니다. </details> --- 다음 글에서는 **모집단과 표본**, **대수의 법칙**, **중심극한정리**, **MLE**, 그리고 **MAP와 베이즈 통계**를 다룰 예정입니다.

카테고리

태그

기댓값, 분산, 공분산: 머신러닝 확률통계 2장

이번 글에서 배우는 것#

기댓값 (Expected Value)#

기댓값 = 가중 평균#

기댓값의 선형 성질#

균등 분포의 기댓값#

집중 경향의 척도#

분산과 표준편차#

분산 (Variance)#

표준편차 (Standard Deviation)#

정규 분포의 합 (Sum of Gaussians)#

왜도와 첨도 — 분포의 모멘트#

모멘트 (Moments)#