Practical Statistics for Data Scientists 퀴즈

1장부터 7장까지 배운 내용을 얼마나 이해하고 있는지 점검하는 과제입니다. 개념 확인, 계산, 코드 해석, 실무 시나리오 문제로 구성되어 있습니다. 정답은 각 파트 마지막에 있습니다. 정답을 보기 전에 먼저 스스로 풀어보세요.

난이도 표시: ⭐ 기초 / ⭐⭐ 중급 / ⭐⭐⭐ 응용

Part 1 — 기술통계와 데이터 탐색 (1장)#

문제 1-1 ⭐ 개념 확인#

다음 데이터셋의 평균, 중앙값, 최빈값을 구하세요.

$\{3, 7, 7, 2, 9, 7, 4, 1, 8\}$

문제 1-2 ⭐ 계산#

아래 데이터의 표본분산과 표본표준편차를 구하세요.

$\{4, 8, 6, 5, 3, 2, 8, 9, 2, 5\}$

표본분산 공식: $s^2 = \dfrac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})^2$

문제 1-3 ⭐ 개념 확인#

다음 중 이상값에 강한(robust) 대표값과 산포도를 고르세요.

평균, 분산
중앙값, IQR
평균, 표준편차
최빈값, 범위

문제 1-4 ⭐⭐ 코드 읽기#

다음 코드를 읽고, 출력 결과를 예측하세요.

import numpy as np

data = np.array([10, 20, 20, 30, 40, 50, 50, 50, 100])

print(np.mean(data))
print(np.median(data))
print(np.percentile(data, 75) - np.percentile(data, 25))

Part 2 — 표본분포와 확률분포 (2장)#

문제 2-1 ⭐ 개념 확인#

다음 빈칸을 채우세요.

중심극한정리(CLT)에 의하면, 모집단의 분포에 상관없이 표본 크기가 충분히 크면 표본 평균의 분포는 ___에 근사한다. 이때 표본 평균의 표준편차(표준오차)는 ___이다.

문제 2-2 ⭐ 계산#

어떤 모집단의 평균은 $\mu = 50$ , 표준편차는 $\sigma = 10$ 이다.

(a) $n = 100$ 의 표본을 추출할 때, 표본 평균의 표준오차는?

(b) 표본 평균이 52 이상일 확률은? (z-점수 계산 후, $P(Z > 2) = 0.0228$ 을 사용)

문제 2-3 ⭐⭐ 개념 비교#

부트스트랩(bootstrap)에 대해 다음을 설명하세요.

부트스트랩이란 무엇인가?
복원추출과 비복원추출 중 어떤 방식을 사용하는가?
어떤 상황에서 부트스트랩이 유용한가?

문제 2-4 ⭐⭐ 계산#

이항분포 $X \sim B(n=10, p=0.3)$ 에서 다음을 구하세요.

(a) $E[X]$ 와 $\text{Var}(X)$

(b) $P(X = 3)$ 을 공식으로 표현하세요.

$P(X = k) = \binom{n}{k} p^k (1-p)^{n-k}$

Part 3 — 통계적 실험과 유의성 검정 (3장)#

문제 3-1 ⭐ 개념 확인#

다음 중 p-값에 대한 올바른 해석을 고르세요.

p-값은 귀무가설이 참일 확률이다.
p-값은 대립가설이 참일 확률이다.
p-값은 귀무가설이 참일 때, 현재 관측 이상의 극단적인 결과가 나타날 확률이다.
p < 0.05이면 효과가 실질적으로 크다.

문제 3-2 ⭐⭐ 시나리오#

의약품 회사가 새 약이 기존 약보다 효과적인지 검정하고자 합니다.

(a) 귀무가설( $H_0$ )과 대립가설( $H_1$ )을 설정하세요.

(b) 단측 검정과 양측 검정 중 어느 것이 더 적절한가요? 이유를 설명하세요.

(c) 제1종 오류와 제2종 오류가 각각 이 상황에서 무엇을 의미하는지 설명하세요.

문제 3-3 ⭐⭐ 계산#

세 개의 마케팅 채널(A, B, C)의 전환율을 비교합니다. 각 채널의 표본 크기는 100명씩입니다.

어떤 검정 방법을 사용해야 하며, 귀무가설은 무엇인가요?

만약 F-통계량이 크고 p < 0.05이면 다음 단계로 무엇을 해야 하나요?

문제 3-4 ⭐⭐⭐ 응용#

A/B 검정과 멀티암드 밴딧(MAB)의 차이를 설명하고, 각각이 더 적합한 상황을 하나씩 제시하세요.

Part 4 — 회귀와 예측 (4장)#

문제 4-1 ⭐ 코드 읽기#

아래 회귀 출력을 보고 질문에 답하세요.

OLS Regression Results
===========================================================
Dep. Variable:    매출      R-squared:        0.782
===========================================================
                coef    std err    t      P>|t|
-----------------------------------------------------------
const         12.450    3.210    3.88    0.000
광고비          2.345    0.180   13.03    0.000
직원수          1.820    0.650    2.80    0.006
연식           -0.430    0.210   -2.05    0.043
===========================================================

(a) 광고비가 1단위 증가할 때 매출은 평균 얼마나 변하나요?

(b) 이 모델은 매출 변동의 몇 %를 설명하나요?

(c) 연식 계수의 부호와 의미를 해석하세요.

(d) 유의수준 0.05에서 통계적으로 유의하지 않은 변수가 있나요?

문제 4-2 ⭐⭐ 개념 비교#

개념	설명
RMSE	?
$R^2$	?
신뢰구간	?
예측구간	?

빈칸을 채우고, 신뢰구간과 예측구간 중 어느 것이 더 넓은지, 그 이유를 설명하세요.

문제 4-3 ⭐⭐ 계산#

단순선형회귀 $y = \beta_0 + \beta_1 x$ 에서 다음 데이터가 주어졌습니다.

$\bar{x} = 5, \quad \bar{y} = 12, \quad \sum(x_i - \bar{x})(y_i - \bar{y}) = 30, \quad \sum(x_i - \bar{x})^2 = 10$

(a) $\hat{\beta}_1$ 을 구하세요.

(b) $\hat{\beta}_0$ 을 구하세요.

(c) $x = 7$ 일 때 $\hat{y}$ 는?

문제 4-4 ⭐⭐⭐ 잔차 진단#

다음 잔차 플롯을 보고 각 문제를 진단하세요. (텍스트로 설명)

상황 A: 잔차 vs 적합값 플롯에서 잔차가 적합값이 커질수록 퍼지는 부채꼴 모양
상황 B: QQ 플롯에서 양쪽 끝이 직선에서 크게 벗어남
상황 C: 지렛대-잔차 플롯에서 오른쪽 위 구석에 점이 하나 있음

각 상황이 어떤 가정 위반을 나타내며, 어떻게 대응하면 좋은지 설명하세요.

Part 5 — 분류 (5장)#

문제 5-1 ⭐ 계산#

다음 혼동행렬을 이용해 정확도, 민감도(재현율), 정밀도, F1-점수를 구하세요.

	예측 양성	예측 음성
실제 양성	80	20
실제 음성	10	90

문제 5-2 ⭐⭐ 개념 확인#

로지스틱 회귀에서 다음을 설명하세요.

(a) 오즈(odds)와 오즈비(odds ratio)의 차이

(b) 계수 $\beta_1 = 0.5$ 의 해석 ( $\exp(0.5) \approx 1.65$ 를 사용)

(c) 왜 로지스틱 회귀는 직접 확률을 회귀하지 않고 로짓을 사용하는가?

문제 5-3 ⭐⭐ 개념 비교#

나이브 베이즈와 로지스틱 회귀를 다음 관점에서 비교하세요.

관점	나이브 베이즈	로지스틱 회귀
확률 추정 방식	?	?
주요 가정	?	?
장점	?	?
단점	?	?

문제 5-4 ⭐⭐⭐ 시나리오#

암 진단 모델을 개발합니다. 전체 환자의 3%가 암 양성입니다.

(a) 항상 "음성"만 예측하는 모델의 정확도는?

(b) 이 수치가 의미 없는 이유와 대신 사용해야 할 지표는?

(c) 이 문제에서 제1종 오류(양성을 음성으로 판정)와 제2종 오류(음성을 양성으로 판정) 중 어느 것이 더 심각한가요? 이유를 설명하세요.

(d) 불균형 데이터 문제를 해결하는 방법 3가지를 설명하세요.

Part 6 — 통계적 머신러닝 (6장)#

문제 6-1 ⭐ 개념 확인#

KNN 알고리즘에서 다음 물음에 답하세요.

(a) $k$ 가 너무 작을 때(예: $k=1$ )와 너무 클 때(예: $k=n$ )의 문제점은?

(b) KNN에서 표준화가 필수인 이유를 예를 들어 설명하세요.

(c) 텍스트 분류에서 유클리드 거리보다 코사인 거리가 더 적합한 이유는?

문제 6-2 ⭐⭐ 코드 읽기#

다음 코드를 읽고 질문에 답하세요.

from sklearn.tree import DecisionTreeClassifier

dt = DecisionTreeClassifier(max_depth=None, random_state=42)
dt.fit(X_train, y_train)

print(dt.score(X_train, y_train))  # 출력: 1.0
print(dt.score(X_test, y_test))    # 출력: 0.71

(a) 훈련 정확도 1.0이 의미하는 것은?

(b) 이를 해결하는 방법을 2가지 이상 제시하세요.

(c) 랜덤 포레스트가 단일 트리보다 나은 이유를 "편향-분산 트레이드오프" 관점에서 설명하세요.

문제 6-3 ⭐⭐ 개념 비교#

배깅과 부스팅을 비교하세요.

항목	배깅	부스팅
학습 순서	?	?
주로 줄이는 오차	?	?
이상값 민감도	?	?
대표 알고리즘	?	?

문제 6-4 ⭐⭐⭐ 응용#

그레이디언트 부스팅 모델을 학습할 때, 다음 상황별로 하이퍼파라미터를 어떻게 조정해야 하나요?

상황 A: 훈련 정확도는 0.98, 테스트 정확도는 0.72 (과대적합)
상황 B: 훈련/테스트 정확도 모두 0.73 (과소적합)
상황 C: 모델이 너무 느려 배포가 어려움

Part 7 — 비지도 학습 (7장)#

문제 7-1 ⭐ 개념 확인#

PCA에 대한 설명으로 틀린 것을 고르세요.

PCA는 분산을 최대한 보존하는 방향으로 데이터를 투영한다.
주성분들은 서로 직교(orthogonal)한다.
PCA 수행 전 표준화는 선택 사항이다.
스크리그래프의 엘보 포인트에서 주성분 수를 결정한다.

문제 7-2 ⭐⭐ 계산#

K-평균 클러스터링에서 다음 데이터와 초기 중심이 주어졌습니다.

$\text{데이터: } A(1,1),\ B(2,1),\ C(4,3),\ D(5,4),\ E(3,2)$

$\text{초기 중심: } \mu_1 = (1,1),\ \mu_2 = (5,4)$

(a) 1회 반복 후 각 포인트의 클러스터 할당을 구하세요. (유클리드 거리 사용)

(b) 새로운 중심을 계산하세요.

문제 7-3 ⭐⭐ 개념 비교#

K-평균과 계층적 클러스터링을 비교하세요.

항목	K-평균	계층적 클러스터링
K 사전 지정	?	?
결과 시각화	?	?
시간 복잡도	?	?
이상값 영향	?	?
결정적 결과	?	?

문제 7-4 ⭐⭐⭐ 시나리오#

고객 데이터를 클러스터링하여 세분화하려 합니다. 변수: 나이(수치), 연소득(수치), 지역(범주: 수도권/지방), 회원 여부(이진: Y/N)

(a) 스케일링이 필요한 변수와 이유를 설명하세요.

(b) 범주형/이진형 변수를 어떻게 처리할지 2가지 방법을 설명하세요.

(c) K-평균, 계층적 클러스터링, GMM 중 이 상황에 가장 적합한 방법과 이유는?

정답 및 해설#

Part 1 정답#

1-1.

$\{1, 2, 3, 4, 7, 7, 7, 8, 9\} \text{ (정렬 후)}$

평균: $\dfrac{3+7+7+2+9+7+4+1+8}{9} = \dfrac{48}{9} \approx 5.33$
중앙값: 정렬 시 5번째 값 = $7$
최빈값: $7$ (3회)

1-2.

$\bar{x} = \dfrac{4+8+6+5+3+2+8+9+2+5}{10} = \dfrac{52}{10} = 5.2$

$s^2 = \frac{(4-5.2)^2+(8-5.2)^2+\cdots+(5-5.2)^2}{9} = \frac{54.4}{9} \approx 6.04$

$s = \sqrt{6.04} \approx 2.46$

1-3. ✅ 2번 — 중앙값, IQR은 이상값의 영향을 받지 않는 강건 통계량입니다.

1-4. 출력 결과:

np.mean(data) → 43.33... (이상값 100이 평균을 왜곡)
np.median(data) → 40.0
IQR = np.percentile(data, 75) - np.percentile(data, 25) = 50 - 20 = 30.0

Part 2 정답#

2-1. 표본 평균의 분포는 정규분포에 근사하며, 표준오차는 $\dfrac{\sigma}{\sqrt{n}}$ 이다.

2-2.

(a) 표준오차 $= \dfrac{10}{\sqrt{100}} = 1.0$

(b) $z = \dfrac{52 - 50}{1} = 2$ , $P(\bar{X} \geq 52) = P(Z > 2) = 0.0228$

2-3.

부트스트랩: 주어진 표본에서 복원추출로 새 표본을 반복 생성해 통계량의 분포를 추정하는 재표본 방법
복원추출 사용 (같은 데이터가 여러 번 뽑힐 수 있음)
표본 수가 적거나, 통계량의 이론적 분포를 모를 때, 신뢰구간 추정이 필요할 때

2-4.

(a) $E[X] = np = 10 \times 0.3 = 3$ , $\text{Var}(X) = np(1-p) = 10 \times 0.3 \times 0.7 = 2.1$

(b) $P(X=3) = \dbinom{10}{3}(0.3)^3(0.7)^7 = 120 \times 0.027 \times 0.0824 \approx 0.267$

Part 3 정답#

3-1. ✅ 3번 — p-값은 귀무가설이 참일 때 현재 결과 이상으로 극단적인 값이 나타날 확률입니다.

3-2.

(a) $H_0$ : 새 약과 기존 약의 효과는 같다 ( $\mu_{\text{new}} = \mu_{\text{old}}$ ) $H_1$ : 새 약이 더 효과적이다 ( $\mu_{\text{new}} > \mu_{\text{old}}$ )

(b) 단측 검정 — "더 효과적인가?"라는 방향이 명확한 질문이므로

(c)

제1종 오류 ( $\alpha$ ): 실제로는 효과가 없는데 효과 있다고 판정 → 효과 없는 약을 승인
제2종 오류 ( $\beta$ ): 실제로 효과 있는데 없다고 판정 → 유익한 약을 놓침

3-3. 분산분석(ANOVA) 사용. 귀무가설: $\mu_A = \mu_B = \mu_C$ (세 채널의 전환율은 모두 같다). F-통계량이 유의하면 **사후 검정(Tukey HSD 등)**으로 어느 채널 쌍이 다른지 확인합니다.

3-4. A/B 검정은 탐색 기간 동안 열등한 버전에도 동등하게 노출시켜 기회 손실이 발생합니다. MAB는 성과에 따라 노출을 동적 조정해 손실을 줄입니다. A/B 검정 적합: 정밀한 통계 추론이 필요한 약물 임상시험. MAB 적합: 실시간 광고 최적화, 넷플릭스 콘텐츠 추천.

Part 4 정답#

4-1.

(a) 광고비 1단위 증가 시 매출 평균 2.345 증가 (다른 변수 고정)

(b) **78.2%**의 변동 설명 ( $R^2 = 0.782$ )

(d) 없음 — 모든 변수의 p-값이 0.05 미만으로 유의

4-2.

RMSE: 예측 오차의 평균 크기 (단위: 응답변수와 동일)
$R^2$ : 모델이 설명하는 변동의 비율 (0~1, 1에 가까울수록 좋음)
신뢰구간: 모집단 평균 응답값의 불확실성 범위
예측구간: 새로운 개별 관측값의 불확실성 범위

예측구간이 더 넓음 — 개별 관측값에는 평균의 불확실성 + 개별 오차( $\varepsilon$ )가 모두 포함되기 때문

4-3.

(a) $\hat{\beta}_1 = \dfrac{30}{10} = 3$

(b) $\hat{\beta}_0 = \bar{y} - \hat{\beta}_1 \bar{x} = 12 - 3 \times 5 = -3$

4-4.

상황 A: 이분산성(heteroscedasticity) — 오차 분산이 일정하지 않음 → 로그 변환 또는 가중회귀 적용
상황 B: 비정규 잔차 — 정규성 가정 위반 → 변수 변환, 강건 회귀 고려
상황 C: 영향값(influential point) — 지렛대 높고 잔차 큰 관측값 → 데이터 오류 확인 후 제거 또는 강건 회귀

Part 5 정답#

5-1.

$\text{정확도} = \frac{80+90}{80+20+10+90} = \frac{170}{200} = 0.85$

$\text{민감도(재현율)} = \frac{80}{80+20} = \frac{80}{100} = 0.80$

$\text{정밀도} = \frac{80}{80+10} = \frac{80}{90} \approx 0.889$

$F_1 = 2 \times \frac{0.889 \times 0.80}{0.889 + 0.80} = 2 \times \frac{0.711}{1.689} \approx 0.842$

5-2.

(a) 오즈 = $\dfrac{p}{1-p}$ (한 관측값의 발생/미발생 비율). 오즈비 = 두 오즈의 비율 (변수 1단위 증가 시 오즈 변화 배율).

(b) $\exp(0.5) \approx 1.65$ → $x_1$ 이 1단위 증가하면 사건 발생 오즈가 약 65% 증가

5-3.

관점	나이브 베이즈	로지스틱 회귀
확률 추정 방식	생성 모델 (P(X\|C) 추정)	판별 모델 (P(C\|X) 직접 추정)
주요 가정	특징 간 조건부 독립	로짓이 특징의 선형 결합
장점	빠름, 소규모 데이터에 강함	확률 보정 우수, 다중공선성 처리 가능
단점	독립 가정 현실적으로 성립 어려움	대용량 데이터 필요, 특징 스케일 민감

5-4.

(a) 97% (음성 비율) — 항상 음성만 예측해도 정확도 0.97

(b) 실제 관심사인 양성(암)을 전혀 탐지하지 못하기 때문. 재현율(Sensitivity), AUC, F1 사용

(d) ① SMOTE(합성 과잉표본) ② 클래스 가중치 조정(class_weight='balanced') ③ 분류 임계값 낮추기 (재현율 향상)

Part 6 정답#

6-1.

(a) $k=1$ : 이웃 1개에 과의존 → 과대적합, 잡음에 민감. $k=n$ : 모든 데이터가 이웃 → 항상 다수 클래스 예측 → 과소적합

(b) 소득(만원)과 나이(년) 같이 단위가 다른 변수가 있으면, 소득이 거리를 지배. 표준화로 균일하게 반영

6-2.

(a) 훈련 데이터를 완벽하게 암기한 과대적합(overfitting)

(b) ① max_depth 제한 ② min_samples_leaf 증가 ③ 가지치기(pruning) ④ 랜덤 포레스트로 교체

6-3.

항목	배깅	부스팅
학습 순서	병렬 (독립적)	순차 (이전 오차 반영)
주로 줄이는 오차	분산(Variance)	편향(Bias)
이상값 민감도	낮음	높음 (잘못 분류에 가중치)
대표 알고리즘	랜덤 포레스트	XGBoost, LightGBM, AdaBoost

6-4.

상황 A (과대적합): learning_rate 감소, max_depth 축소, subsample 추가, n_estimators 줄이기, 정규화( $L1/L2$ ) 추가
상황 B (과소적합): n_estimators 증가, learning_rate 높이기, max_depth 증가
상황 C (속도 문제): LightGBM으로 교체, n_estimators 줄이기, 특징 수 축소(PCA), 조기 종료(early stopping)

Part 7 정답#

7-1. ✅ 3번 — PCA 수행 전 표준화는 필수입니다. 스케일이 큰 변수가 주성분을 지배하게 됩니다.

7-2.

(a) 유클리드 거리 계산:

포인트	$d(\mu_1=(1,1))$	$d(\mu_2=(5,4))$	할당
A(1,1)	0	$\sqrt{25}=5$	클러스터 1
B(2,1)	1	$\sqrt{13}\approx3.6$	클러스터 1
C(4,3)	$\sqrt{13}\approx3.6$	$\sqrt{2}\approx1.4$	클러스터 2
D(5,4)	$\sqrt{25}=5$	0	클러스터 2
E(3,2)	$\sqrt{5}\approx2.2$	$\sqrt{8}\approx2.8$	클러스터 1

(b) 새로운 중심: $\mu_1 = \frac{A+B+E}{3} = \frac{(1+2+3, 1+1+2)}{3} = (2, \tfrac{4}{3}) \approx (2, 1.33)$ $\mu_2 = \frac{C+D}{2} = \frac{(4+5, 3+4)}{2} = (4.5, 3.5)$

7-3.

항목	K-평균	계층적 클러스터링
K 사전 지정	필요	불필요 (사후 결정)
결과 시각화	산점도	덴드로그램
시간 복잡도	$O(nKt)$ — 빠름	$O(n^2)$ — 느림
이상값 영향	중심값 왜곡	단일 연결 시 민감
결정적 결과	아니오 (초기값 의존)	예 (거리 기반 고정)

7-4.

(a) 나이, 연소득 — 스케일 차이로 거리 계산이 왜곡됨. 표준화 또는 MinMaxScaling 적용

(b) ① 원-핫 인코딩 후 표준화 ② 고워 거리(Gower Distance)로 통합 처리 — 수치/범주/이진 혼합 데이터를 [0,1] 유사도로 통합

(c) 고워 거리 기반 계층적 클러스터링 또는 GMM 권장. K-평균은 유클리드 거리만 지원해 범주형 처리가 불편합니다. 고객 수가 많지 않다면 계층적 클러스터링으로 덴드로그램을 보며 K를 결정하는 것이 직관적입니다.

채점 기준#

파트	총 점수	내용
Part 1 (1장)	20점	기술통계 개념 및 계산
Part 2 (2장)	20점	표본분포, 부트스트랩, 확률분포
Part 3 (3장)	15점	가설검정, p-값, A/B 검정
Part 4 (4장)	20점	회귀 계수 해석, 잔차 진단
Part 5 (5장)	20점	분류, 혼동행렬, 불균형 데이터
Part 6 (6장)	15점	KNN, 트리, 앙상블
Part 7 (7장)	15점	PCA, 클러스터링
합계	125점

90점 이상: 실무 투입 가능 수준 — 데이터 사이언티스트 기초 완성

70~89점: 개념 이해 양호 — 취약 파트 집중 복습 필요

70점 미만: 해당 장을 다시 정독 후 재도전 권장

카테고리

태그

관련 포스트

비지도 학습: 통계 기초 정리 7장

통계적 머신러닝: 통계 기초 정리 6장

분류: 통계 기초 정리 5장