기댓값, 분산, 공분산: 머신러닝 확률통계 2장
1장에서는 확률의 기초와 주요 확률 분포를 배웠습니다. 이번 글에서는 분포를 숫자로 요약하는 통계량(기댓값·분산·왜도·첨도)과 두 변수 이상의 관계를 다루는 결합 분포·공분산·상관계수를 다룹니다.
이 글은 DeepLearning.AI의 Mathematics for Machine Learning and Data Science — Probability & Statistics 2주차 내용을 기반으로 정리했습니다.
이번 글에서 배우는 것#
- 기댓값 — 가중 평균으로 이해하는 평균
- 분산과 표준편차 — 데이터의 퍼짐 측정
- 왜도와 첨도 — 분포 모양의 고차 모멘트
- 시각화 — 분위수, 박스플롯, KDE, QQ 플롯
- 결합 분포 — 두 변수의 동시 분포
- 주변 분포 / 조건부 분포
- 공분산과 상관계수
- 다변수 정규 분포
기댓값 (Expected Value)#
기댓값 = 가중 평균#
기댓값(Expected Value) 은 확률 변수의 장기적 평균입니다. 각 값에 확률(가중치)을 곱해 합산합니다.
이산형:
연속형:
예시 — 동전 게임: 앞면 10달러, 뒷면 0달러:
→ 이 게임에 지불할 용의가 있는 최대 금액 = 5달러
기댓값의 선형 성질#
예시 — 동전(기댓값 0.5달러) + 주사위(기댓값 3.5달러) 게임:
균등 분포의 기댓값#
균등 분포 에서:
분포가 비대칭이면 평균이 중간에 위치하지 않습니다 → 이때는 중앙값(median) 이 더 적합합니다.
집중 경향의 척도#
| 척도 | 정의 | 이상치 민감도 |
|---|---|---|
| 평균 (Mean) | 합 ÷ 개수 | 높음 |
| 중앙값 (Median) | 정렬 후 가운데 값 | 낮음 |
| 최빈값 (Mode) | 가장 자주 나오는 값 | 없음 |
다중봉 분포 (Multimodal): 최빈값이 2개 이상인 분포.
실무: 소득·집값 같은 오른쪽 꼬리가 긴 데이터에는 평균보다 중앙값이 더 대표적입니다.
분산과 표준편차#
분산 (Variance)#
분포의 퍼짐(spread) 을 측정합니다.
이산형:
분산의 성질:
- 상수 를 더해도 분산은 변하지 않음 (위치만 이동)
- 상수 를 곱하면 분산은 배
표준편차 (Standard Deviation)#
- 분산의 단위가 이라 해석이 어려움 → 제곱근을 취해 원래 단위로 복원
- 정규 분포에서 68-95-99.7 법칙: / /
정규 분포의 합 (Sum of Gaussians)#
독립인 두 정규 분포의 합도 정규 분포입니다:
스케일 를 곱하면:
왜도와 첨도 — 분포의 모멘트#
모멘트 (Moments)#
차 모멘트:
| 모멘트 | 이름 | 의미 |
|---|---|---|
| 1차 | 평균 (Mean) | 분포의 위치 |
| 2차 | 분산 (Variance) | 분포의 퍼짐 |
| 3차 | 왜도 (Skewness) | 분포의 비대칭 |
| 4차 | 첨도 (Kurtosis) | 꼬리의 두께 |
왜도 (Skewness)#
- 양의 왜도 (Right-skewed): 오른쪽 꼬리가 긴 분포 (소득 분포, 집값 등)
- 음의 왜도 (Left-skewed): 왼쪽 꼬리가 긴 분포
- 대칭 분포: 왜도 = 0
평균·분산이 같아도 왜도로 분포의 차이를 구별할 수 있습니다.
첨도 (Kurtosis)#
- 첨도가 높음: 꼬리가 두껍고 중앙이 날카로움 → 극단값(이상치)이 많음
- 첨도가 낮음: 꼬리가 얇고 중앙이 평평함
왜도와 첨도가 같을 때도 분포 모양이 다를 수 있어 추가 지표가 필요합니다.
분포 시각화#
분위수와 박스플롯 (Quantiles & Box-Plot)#
분위수: 데이터를 정렬했을 때 특정 비율 위치의 값
박스플롯 구성 요소:
| 요소 | 설명 |
|---|---|
| 최솟값 | 이상치 제외 최소 |
| Q1 (25%) | 1사분위수 |
| Q2 (50%) | 중앙값 |
| Q3 (75%) | 3사분위수 |
| 최댓값 | 이상치 제외 최대 |
| IQR | (사분위 범위) |
커널 밀도 추정 (KDE, Kernel Density Estimation)#
히스토그램의 단점(불연속)을 보완해 부드러운 PDF 추정을 제공합니다. 각 데이터 포인트에 작은 가우시안(커널)을 놓고 합산합니다.
바이올린 플롯 (Violin Plot): KDE + 박스플롯을 결합한 시각화.
QQ 플롯 (Quantile-Quantile Plot)#
데이터가 정규 분포를 따르는지 시각적으로 확인하는 방법.
- 점들이 대각선에 가까울수록 → 정규 분포에 가까움
- 점들이 곡선 형태 → 비정규 분포 (왜도 존재)
다변수 확률 분포#
결합 분포 (Joint Distribution)#
두 확률 변수 , 의 동시 확률:
이산형:
독립인 경우:
종속인 경우: 관측 빈도를 표로 정리해 각 셀의 확률을 계산합니다.
연속형: 2차원 PDF 로 표현하며 히스토그램, 히트맵, 산점도, 밀도 플롯으로 시각화합니다.
주변 분포 (Marginal Distribution)#
특정 변수 하나에 초점을 맞춰 다른 변수를 합산(적분) 한 분포.
직관: 결합 분포 표에서 행(또는 열)의 합을 구하는 것.
조건부 분포 (Conditional Distribution)#
특정 변수의 값이 주어졌을 때 다른 변수의 분포.
주변 분포로 정규화하는 것이 핵심입니다 (조건부 확률의 확장).
직관: 결합 분포 표에서 특정 행(또는 열)을 해당 행(열)의 합으로 나눈 것.
공분산과 상관계수#
공분산 (Covariance)#
두 변수가 같은 방향으로 움직이는지 측정합니다.
| 부호 | 의미 |
|---|---|
| X가 증가할 때 Y도 증가 (양의 관계) | |
| X가 증가할 때 Y는 감소 (음의 관계) | |
| 선형 관계 없음 |
한계: 단위에 의존해 크기만으로 관계의 강도를 비교할 수 없습니다.
공분산 행렬 (Covariance Matrix)#
개 변수의 공분산을 행렬로 정리:
\text{Var}(X_1) & \text{Cov}(X_1, X_2) & \cdots \\ \text{Cov}(X_2, X_1) & \text{Var}(X_2) & \cdots \\ \vdots & \vdots & \ddots \end{bmatrix}$$ - **대각 원소**: 각 변수의 분산 - **비대각 원소**: 두 변수 간 공분산 - 항상 **대칭 행렬** (PCA의 핵심 행렬) ### 상관계수 (Correlation Coefficient) 공분산을 표준화해 단위 의존성을 제거합니다. $$\rho_{XY} = \frac{\text{Cov}(X, Y)}{\sigma_X \cdot \sigma_Y}$$ $$-1 \leq \rho \leq 1$$ | 값 | 의미 | |---|---| | $\rho = 1$ | 완전 양의 선형 관계 | | $\rho = 0$ | 선형 관계 없음 | | $\rho = -1$ | 완전 음의 선형 관계 | > **공분산** = 관계의 방향 / **상관계수** = 방향 + 강도 --- ## 다변수 정규 분포 (Multivariate Gaussian) 1변수 정규 분포를 $n$차원으로 확장: $$f(\mathbf{x}) = \frac{1}{(2\pi)^{n/2} |\Sigma|^{1/2}} \exp\left(-\frac{1}{2}(\mathbf{x} - \boldsymbol{\mu})^T \Sigma^{-1} (\mathbf{x} - \boldsymbol{\mu})\right)$$ - $\boldsymbol{\mu}$: 평균 벡터 - $\Sigma$: 공분산 행렬 **독립인 경우**: $\Sigma$ 가 대각 행렬 → 등고선이 원형 **종속인 경우**: $\Sigma$ 에 공분산 항 존재 → 등고선이 타원형 (기울어짐) > 행렬식 $|\Sigma|$ 가 클수록 분포가 넓게 퍼집니다. --- ## 핵심 정리 | 개념 | 공식 / 설명 | |---|---| | **기댓값** | $E[X] = \sum x_i P(x_i)$ | | **분산** | $\text{Var}(X) = E[(X-\mu)^2]$ | | **표준편차** | $\sigma = \sqrt{\text{Var}(X)}$ | | **왜도** | 3차 표준화 모멘트, 비대칭 방향 | | **첨도** | 4차 표준화 모멘트, 꼬리 두께 | | **주변 분포** | 결합 분포를 한 변수로 합산 | | **조건부 분포** | 주변 분포로 정규화 | | **공분산** | $E[(X-\mu_X)(Y-\mu_Y)]$ | | **상관계수** | $\text{Cov}/(\sigma_X \sigma_Y) \in [-1,1]$ | --- <br /> ## 퀴즈 **Q1. 동전 3번 던져 앞면당 1달러를 받는 게임의 기댓값은?** <details> <summary>정답 보기</summary> $$E[X] = 0 \times \frac{1}{8} + 1 \times \frac{3}{8} + 2 \times \frac{3}{8} + 3 \times \frac{1}{8} = \frac{0+3+6+3}{8} = \frac{12}{8} = 1.5 \text{ 달러}$$ 또는 선형성으로: $E[X] = 3 \times E[\text{동전 1번}] = 3 \times 0.5 = 1.5$ </details> --- **Q2. $\text{Var}(X) = 4$ 일 때 $\text{Var}(3X + 5)$ 는?** <details> <summary>정답 보기</summary> $$\text{Var}(3X + 5) = 3^2 \cdot \text{Var}(X) = 9 \times 4 = 36$$ 상수 5는 분산에 영향을 주지 않습니다 (위치만 이동). </details> --- **Q3. 다음 박스플롯 해석에서 옳은 것은?** 두 클래스 A, B의 시험 점수 박스플롯에서 A의 중앙값이 75, B의 중앙값이 85, A의 박스(IQR)가 B보다 크다면: 1. B의 IQR이 A보다 크다 2. B의 중앙값이 A보다 높다 3. A의 중앙값이 B보다 높다 <details> <summary>정답 보기</summary> **2번** — B의 중앙값(85)이 A(75)보다 높습니다. IQR은 A가 B보다 크므로 1번은 틀렸습니다. A의 중앙값(75)은 B(85)보다 낮으므로 3번도 틀렸습니다. </details> --- **Q4. 공분산이 0이면 두 변수는 독립인가요?** <details> <summary>정답 보기</summary> **반드시 그렇지는 않습니다.** 공분산은 **선형 관계**만 측정합니다. $Y = X^2$ 처럼 비선형 관계에서는 공분산이 0이어도 두 변수는 강한 종속 관계를 가질 수 있습니다. 단, 다변수 정규 분포에서는 $\text{Cov} = 0 \Leftrightarrow$ 독립이 성립합니다. </details> --- **Q5. QQ 플롯에서 점들이 대각선 위/아래로 S자 곡선을 그리면?** <details> <summary>정답 보기</summary> 데이터가 **정규 분포를 따르지 않습니다**. 구체적으로: - S자 곡선 → 왜도(skewness)가 있는 분포 - 양 끝이 대각선 위/아래로 벌어짐 → 꼬리가 두꺼운 분포(높은 첨도) 점들이 대각선에 가깝게 분포해야 정규 분포에 가깝다고 판단합니다. </details> --- 다음 글에서는 **모집단과 표본**, **대수의 법칙**, **중심극한정리**, **MLE**, 그리고 **MAP와 베이즈 통계**를 다룰 예정입니다.관련 포스트
확률·통계 실무 개념 과제: ML 현장에서 마주치는 추론 문제들
확률 기초, 베이즈 정리, 분포, MLE/MAP, 신뢰구간, 가설검정까지 — 머신러닝 실무 시나리오로 배우는 확률통계 개념 과제 모음입니다.
확률·통계 코딩 과제: Python으로 구현하는 ML 통계 도구
베이즈 업데이트, 분포 시뮬레이션, CLT 검증, MLE/MAP 구현, 신뢰구간, 가설검정, A/B 테스트 파이프라인까지 — 확률통계 1~4장을 코드로 구현합니다.
신뢰구간과 가설검정: 머신러닝 확률통계 4장
신뢰구간의 개념과 계산, t분포, 가설검정의 원리(귀무/대립가설, p값, 기각역, 검정력), 다양한 t검정과 A/B 테스트까지 정리했습니다.