Practical Statistics for Data Scientists 퀴즈
1장부터 7장까지 배운 내용을 얼마나 이해하고 있는지 점검하는 과제입니다. 개념 확인, 계산, 코드 해석, 실무 시나리오 문제로 구성되어 있습니다. 정답은 각 파트 마지막에 있습니다. 정답을 보기 전에 먼저 스스로 풀어보세요.
난이도 표시: ⭐ 기초 / ⭐⭐ 중급 / ⭐⭐⭐ 응용
Part 1 — 기술통계와 데이터 탐색 (1장)#
문제 1-1 ⭐ 개념 확인#
다음 데이터셋의 평균, 중앙값, 최빈값을 구하세요.
문제 1-2 ⭐ 계산#
아래 데이터의 표본분산과 표본표준편차를 구하세요.
표본분산 공식:
문제 1-3 ⭐ 개념 확인#
다음 중 이상값에 강한(robust) 대표값과 산포도를 고르세요.
- 평균, 분산
- 중앙값, IQR
- 평균, 표준편차
- 최빈값, 범위
문제 1-4 ⭐⭐ 코드 읽기#
다음 코드를 읽고, 출력 결과를 예측하세요.
import numpy as np
data = np.array([10, 20, 20, 30, 40, 50, 50, 50, 100])
print(np.mean(data))
print(np.median(data))
print(np.percentile(data, 75) - np.percentile(data, 25))
Part 2 — 표본분포와 확률분포 (2장)#
문제 2-1 ⭐ 개념 확인#
다음 빈칸을 채우세요.
중심극한정리(CLT)에 의하면, 모집단의 분포에 상관없이 표본 크기가 충분히 크면 표본 평균의 분포는 ___에 근사한다. 이때 표본 평균의 표준편차(표준오차)는 ___이다.
문제 2-2 ⭐ 계산#
어떤 모집단의 평균은 , 표준편차는 이다.
(a) 의 표본을 추출할 때, 표본 평균의 표준오차는?
(b) 표본 평균이 52 이상일 확률은? (z-점수 계산 후, 을 사용)
문제 2-3 ⭐⭐ 개념 비교#
부트스트랩(bootstrap)에 대해 다음을 설명하세요.
- 부트스트랩이란 무엇인가?
- 복원추출과 비복원추출 중 어떤 방식을 사용하는가?
- 어떤 상황에서 부트스트랩이 유용한가?
문제 2-4 ⭐⭐ 계산#
이항분포 에서 다음을 구하세요.
(a) 와
(b) 을 공식으로 표현하세요.
Part 3 — 통계적 실험과 유의성 검정 (3장)#
문제 3-1 ⭐ 개념 확인#
다음 중 p-값에 대한 올바른 해석을 고르세요.
- p-값은 귀무가설이 참일 확률이다.
- p-값은 대립가설이 참일 확률이다.
- p-값은 귀무가설이 참일 때, 현재 관측 이상의 극단적인 결과가 나타날 확률이다.
- p < 0.05이면 효과가 실질적으로 크다.
문제 3-2 ⭐⭐ 시나리오#
의약품 회사가 새 약이 기존 약보다 효과적인지 검정하고자 합니다.
(a) 귀무가설()과 대립가설()을 설정하세요.
(b) 단측 검정과 양측 검정 중 어느 것이 더 적절한가요? 이유를 설명하세요.
(c) 제1종 오류와 제2종 오류가 각각 이 상황에서 무엇을 의미하는지 설명하세요.
문제 3-3 ⭐⭐ 계산#
세 개의 마케팅 채널(A, B, C)의 전환율을 비교합니다. 각 채널의 표본 크기는 100명씩입니다.
어떤 검정 방법을 사용해야 하며, 귀무가설은 무엇인가요?
만약 F-통계량이 크고 p < 0.05이면 다음 단계로 무엇을 해야 하나요?
문제 3-4 ⭐⭐⭐ 응용#
A/B 검정과 멀티암드 밴딧(MAB)의 차이를 설명하고, 각각이 더 적합한 상황을 하나씩 제시하세요.
Part 4 — 회귀와 예측 (4장)#
문제 4-1 ⭐ 코드 읽기#
아래 회귀 출력을 보고 질문에 답하세요.
OLS Regression Results
===========================================================
Dep. Variable: 매출 R-squared: 0.782
===========================================================
coef std err t P>|t|
-----------------------------------------------------------
const 12.450 3.210 3.88 0.000
광고비 2.345 0.180 13.03 0.000
직원수 1.820 0.650 2.80 0.006
연식 -0.430 0.210 -2.05 0.043
===========================================================
(a) 광고비가 1단위 증가할 때 매출은 평균 얼마나 변하나요?
(b) 이 모델은 매출 변동의 몇 %를 설명하나요?
(c) 연식 계수의 부호와 의미를 해석하세요.
(d) 유의수준 0.05에서 통계적으로 유의하지 않은 변수가 있나요?
문제 4-2 ⭐⭐ 개념 비교#
| 개념 | 설명 |
|---|---|
| RMSE | ? |
| ? | |
| 신뢰구간 | ? |
| 예측구간 | ? |
빈칸을 채우고, 신뢰구간과 예측구간 중 어느 것이 더 넓은지, 그 이유를 설명하세요.
문제 4-3 ⭐⭐ 계산#
단순선형회귀 에서 다음 데이터가 주어졌습니다.
(a) 을 구하세요.
(b) 을 구하세요.
(c) 일 때 는?
문제 4-4 ⭐⭐⭐ 잔차 진단#
다음 잔차 플롯을 보고 각 문제를 진단하세요. (텍스트로 설명)
- 상황 A: 잔차 vs 적합값 플롯에서 잔차가 적합값이 커질수록 퍼지는 부채꼴 모양
- 상황 B: QQ 플롯에서 양쪽 끝이 직선에서 크게 벗어남
- 상황 C: 지렛대-잔차 플롯에서 오른쪽 위 구석에 점이 하나 있음
각 상황이 어떤 가정 위반을 나타내며, 어떻게 대응하면 좋은지 설명하세요.
Part 5 — 분류 (5장)#
문제 5-1 ⭐ 계산#
다음 혼동행렬을 이용해 정확도, 민감도(재현율), 정밀도, F1-점수를 구하세요.
| 예측 양성 | 예측 음성 | |
|---|---|---|
| 실제 양성 | 80 | 20 |
| 실제 음성 | 10 | 90 |
문제 5-2 ⭐⭐ 개념 확인#
로지스틱 회귀에서 다음을 설명하세요.
(a) 오즈(odds)와 오즈비(odds ratio)의 차이
(b) 계수 의 해석 (를 사용)
(c) 왜 로지스틱 회귀는 직접 확률을 회귀하지 않고 로짓을 사용하는가?
문제 5-3 ⭐⭐ 개념 비교#
나이브 베이즈와 로지스틱 회귀를 다음 관점에서 비교하세요.
| 관점 | 나이브 베이즈 | 로지스틱 회귀 |
|---|---|---|
| 확률 추정 방식 | ? | ? |
| 주요 가정 | ? | ? |
| 장점 | ? | ? |
| 단점 | ? | ? |
문제 5-4 ⭐⭐⭐ 시나리오#
암 진단 모델을 개발합니다. 전체 환자의 3%가 암 양성입니다.
(a) 항상 "음성"만 예측하는 모델의 정확도는?
(b) 이 수치가 의미 없는 이유와 대신 사용해야 할 지표는?
(c) 이 문제에서 제1종 오류(양성을 음성으로 판정)와 제2종 오류(음성을 양성으로 판정) 중 어느 것이 더 심각한가요? 이유를 설명하세요.
(d) 불균형 데이터 문제를 해결하는 방법 3가지를 설명하세요.
Part 6 — 통계적 머신러닝 (6장)#
문제 6-1 ⭐ 개념 확인#
KNN 알고리즘에서 다음 물음에 답하세요.
(a) 가 너무 작을 때(예: )와 너무 클 때(예: )의 문제점은?
(b) KNN에서 표준화가 필수인 이유를 예를 들어 설명하세요.
(c) 텍스트 분류에서 유클리드 거리보다 코사인 거리가 더 적합한 이유는?
문제 6-2 ⭐⭐ 코드 읽기#
다음 코드를 읽고 질문에 답하세요.
from sklearn.tree import DecisionTreeClassifier
dt = DecisionTreeClassifier(max_depth=None, random_state=42)
dt.fit(X_train, y_train)
print(dt.score(X_train, y_train)) # 출력: 1.0
print(dt.score(X_test, y_test)) # 출력: 0.71
(a) 훈련 정확도 1.0이 의미하는 것은?
(b) 이를 해결하는 방법을 2가지 이상 제시하세요.
(c) 랜덤 포레스트가 단일 트리보다 나은 이유를 "편향-분산 트레이드오프" 관점에서 설명하세요.
문제 6-3 ⭐⭐ 개념 비교#
배깅과 부스팅을 비교하세요.
| 항목 | 배깅 | 부스팅 |
|---|---|---|
| 학습 순서 | ? | ? |
| 주로 줄이는 오차 | ? | ? |
| 이상값 민감도 | ? | ? |
| 대표 알고리즘 | ? | ? |
문제 6-4 ⭐⭐⭐ 응용#
그레이디언트 부스팅 모델을 학습할 때, 다음 상황별로 하이퍼파라미터를 어떻게 조정해야 하나요?
- 상황 A: 훈련 정확도는 0.98, 테스트 정확도는 0.72 (과대적합)
- 상황 B: 훈련/테스트 정확도 모두 0.73 (과소적합)
- 상황 C: 모델이 너무 느려 배포가 어려움
Part 7 — 비지도 학습 (7장)#
문제 7-1 ⭐ 개념 확인#
PCA에 대한 설명으로 틀린 것을 고르세요.
- PCA는 분산을 최대한 보존하는 방향으로 데이터를 투영한다.
- 주성분들은 서로 직교(orthogonal)한다.
- PCA 수행 전 표준화는 선택 사항이다.
- 스크리그래프의 엘보 포인트에서 주성분 수를 결정한다.
문제 7-2 ⭐⭐ 계산#
K-평균 클러스터링에서 다음 데이터와 초기 중심이 주어졌습니다.
(a) 1회 반복 후 각 포인트의 클러스터 할당을 구하세요. (유클리드 거리 사용)
(b) 새로운 중심을 계산하세요.
문제 7-3 ⭐⭐ 개념 비교#
K-평균과 계층적 클러스터링을 비교하세요.
| 항목 | K-평균 | 계층적 클러스터링 |
|---|---|---|
| K 사전 지정 | ? | ? |
| 결과 시각화 | ? | ? |
| 시간 복잡도 | ? | ? |
| 이상값 영향 | ? | ? |
| 결정적 결과 | ? | ? |
문제 7-4 ⭐⭐⭐ 시나리오#
고객 데이터를 클러스터링하여 세분화하려 합니다. 변수: 나이(수치), 연소득(수치), 지역(범주: 수도권/지방), 회원 여부(이진: Y/N)
(a) 스케일링이 필요한 변수와 이유를 설명하세요.
(b) 범주형/이진형 변수를 어떻게 처리할지 2가지 방법을 설명하세요.
(c) K-평균, 계층적 클러스터링, GMM 중 이 상황에 가장 적합한 방법과 이유는?
정답 및 해설#
Part 1 정답#
1-1.
- 평균:
- 중앙값: 정렬 시 5번째 값 =
- 최빈값: (3회)
1-2.
1-3. ✅ 2번 — 중앙값, IQR은 이상값의 영향을 받지 않는 강건 통계량입니다.
1-4. 출력 결과:
np.mean(data)→43.33...(이상값 100이 평균을 왜곡)np.median(data)→40.0- IQR =
np.percentile(data, 75) - np.percentile(data, 25)=50 - 20=30.0
Part 2 정답#
2-1. 표본 평균의 분포는 정규분포에 근사하며, 표준오차는 이다.
2-2.
(a) 표준오차
(b) ,
2-3.
- 부트스트랩: 주어진 표본에서 복원추출로 새 표본을 반복 생성해 통계량의 분포를 추정하는 재표본 방법
- 복원추출 사용 (같은 데이터가 여러 번 뽑힐 수 있음)
- 표본 수가 적거나, 통계량의 이론적 분포를 모를 때, 신뢰구간 추정이 필요할 때
2-4.
(a) ,
(b)
Part 3 정답#
3-1. ✅ 3번 — p-값은 귀무가설이 참일 때 현재 결과 이상으로 극단적인 값이 나타날 확률입니다.
3-2.
(a) : 새 약과 기존 약의 효과는 같다 () : 새 약이 더 효과적이다 ()
(b) 단측 검정 — "더 효과적인가?"라는 방향이 명확한 질문이므로
(c)
- 제1종 오류 (): 실제로는 효과가 없는데 효과 있다고 판정 → 효과 없는 약을 승인
- 제2종 오류 (): 실제로 효과 있는데 없다고 판정 → 유익한 약을 놓침
3-3. 분산분석(ANOVA) 사용. 귀무가설: (세 채널의 전환율은 모두 같다). F-통계량이 유의하면 **사후 검정(Tukey HSD 등)**으로 어느 채널 쌍이 다른지 확인합니다.
3-4. A/B 검정은 탐색 기간 동안 열등한 버전에도 동등하게 노출시켜 기회 손실이 발생합니다. MAB는 성과에 따라 노출을 동적 조정해 손실을 줄입니다. A/B 검정 적합: 정밀한 통계 추론이 필요한 약물 임상시험. MAB 적합: 실시간 광고 최적화, 넷플릭스 콘텐츠 추천.
Part 4 정답#
4-1.
(a) 광고비 1단위 증가 시 매출 평균 2.345 증가 (다른 변수 고정)
(b) **78.2%**의 변동 설명 ()
(c) 연식이 1 증가할수록 매출이 평균 0.430 감소 (오래될수록 성과 저하)
(d) 없음 — 모든 변수의 p-값이 0.05 미만으로 유의
4-2.
- RMSE: 예측 오차의 평균 크기 (단위: 응답변수와 동일)
- : 모델이 설명하는 변동의 비율 (0~1, 1에 가까울수록 좋음)
- 신뢰구간: 모집단 평균 응답값의 불확실성 범위
- 예측구간: 새로운 개별 관측값의 불확실성 범위
예측구간이 더 넓음 — 개별 관측값에는 평균의 불확실성 + 개별 오차()가 모두 포함되기 때문
4-3.
(a)
(b)
(c)
4-4.
- 상황 A: 이분산성(heteroscedasticity) — 오차 분산이 일정하지 않음 → 로그 변환 또는 가중회귀 적용
- 상황 B: 비정규 잔차 — 정규성 가정 위반 → 변수 변환, 강건 회귀 고려
- 상황 C: 영향값(influential point) — 지렛대 높고 잔차 큰 관측값 → 데이터 오류 확인 후 제거 또는 강건 회귀
Part 5 정답#
5-1.
5-2.
(a) 오즈 = (한 관측값의 발생/미발생 비율). 오즈비 = 두 오즈의 비율 (변수 1단위 증가 시 오즈 변화 배율).
(b) → 이 1단위 증가하면 사건 발생 오즈가 약 65% 증가
(c) 확률 는 범위인 반면, 선형 조합 는 실수 전체 범위입니다. 로짓은 를 실수 전체로 변환하는 연결 함수입니다.
5-3.
| 관점 | 나이브 베이즈 | 로지스틱 회귀 |
|---|---|---|
| 확률 추정 방식 | 생성 모델 (P(X|C) 추정) | 판별 모델 (P(C|X) 직접 추정) |
| 주요 가정 | 특징 간 조건부 독립 | 로짓이 특징의 선형 결합 |
| 장점 | 빠름, 소규모 데이터에 강함 | 확률 보정 우수, 다중공선성 처리 가능 |
| 단점 | 독립 가정 현실적으로 성립 어려움 | 대용량 데이터 필요, 특징 스케일 민감 |
5-4.
(a) 97% (음성 비율) — 항상 음성만 예측해도 정확도 0.97
(b) 실제 관심사인 양성(암)을 전혀 탐지하지 못하기 때문. 재현율(Sensitivity), AUC, F1 사용
(c) 제1종 오류가 더 심각 — 실제 암 환자를 음성으로 판정하면 치료 기회를 놓쳐 생명에 위험. 제2종 오류(정상인을 양성으로 판정)는 추가 검사로 확인 가능
(d) ① SMOTE(합성 과잉표본) ② 클래스 가중치 조정(class_weight='balanced') ③ 분류 임계값 낮추기 (재현율 향상)
Part 6 정답#
6-1.
(a) : 이웃 1개에 과의존 → 과대적합, 잡음에 민감. : 모든 데이터가 이웃 → 항상 다수 클래스 예측 → 과소적합
(b) 소득(만원)과 나이(년) 같이 단위가 다른 변수가 있으면, 소득이 거리를 지배. 표준화로 균일하게 반영
(c) 텍스트에서는 문서 길이보다 단어 분포의 방향이 유사도에 중요. 코사인은 크기가 아닌 방향(각도)을 측정
6-2.
(a) 훈련 데이터를 완벽하게 암기한 과대적합(overfitting)
(b) ① max_depth 제한 ② min_samples_leaf 증가 ③ 가지치기(pruning) ④ 랜덤 포레스트로 교체
(c) 단일 트리는 분산이 매우 높습니다(데이터 변화에 민감). 랜덤 포레스트는 여러 트리를 평균해 분산을 줄입니다. 편향은 유지되지만 분산이 크게 낮아져 일반화 성능이 향상됩니다.
6-3.
| 항목 | 배깅 | 부스팅 |
|---|---|---|
| 학습 순서 | 병렬 (독립적) | 순차 (이전 오차 반영) |
| 주로 줄이는 오차 | 분산(Variance) | 편향(Bias) |
| 이상값 민감도 | 낮음 | 높음 (잘못 분류에 가중치) |
| 대표 알고리즘 | 랜덤 포레스트 | XGBoost, LightGBM, AdaBoost |
6-4.
- 상황 A (과대적합):
learning_rate감소,max_depth축소,subsample추가,n_estimators줄이기, 정규화() 추가 - 상황 B (과소적합):
n_estimators증가,learning_rate높이기,max_depth증가 - 상황 C (속도 문제): LightGBM으로 교체,
n_estimators줄이기, 특징 수 축소(PCA), 조기 종료(early stopping)
Part 7 정답#
7-1. ✅ 3번 — PCA 수행 전 표준화는 필수입니다. 스케일이 큰 변수가 주성분을 지배하게 됩니다.
7-2.
(a) 유클리드 거리 계산:
| 포인트 | 할당 | ||
|---|---|---|---|
| A(1,1) | 0 | 클러스터 1 | |
| B(2,1) | 1 | 클러스터 1 | |
| C(4,3) | 클러스터 2 | ||
| D(5,4) | 0 | 클러스터 2 | |
| E(3,2) | 클러스터 1 |
(b) 새로운 중심:
7-3.
| 항목 | K-평균 | 계층적 클러스터링 |
|---|---|---|
| K 사전 지정 | 필요 | 불필요 (사후 결정) |
| 결과 시각화 | 산점도 | 덴드로그램 |
| 시간 복잡도 | — 빠름 | — 느림 |
| 이상값 영향 | 중심값 왜곡 | 단일 연결 시 민감 |
| 결정적 결과 | 아니오 (초기값 의존) | 예 (거리 기반 고정) |
7-4.
(a) 나이, 연소득 — 스케일 차이로 거리 계산이 왜곡됨. 표준화 또는 MinMaxScaling 적용
(b) ① 원-핫 인코딩 후 표준화 ② 고워 거리(Gower Distance)로 통합 처리 — 수치/범주/이진 혼합 데이터를 [0,1] 유사도로 통합
(c) 고워 거리 기반 계층적 클러스터링 또는 GMM 권장. K-평균은 유클리드 거리만 지원해 범주형 처리가 불편합니다. 고객 수가 많지 않다면 계층적 클러스터링으로 덴드로그램을 보며 K를 결정하는 것이 직관적입니다.
채점 기준#
| 파트 | 총 점수 | 내용 |
|---|---|---|
| Part 1 (1장) | 20점 | 기술통계 개념 및 계산 |
| Part 2 (2장) | 20점 | 표본분포, 부트스트랩, 확률분포 |
| Part 3 (3장) | 15점 | 가설검정, p-값, A/B 검정 |
| Part 4 (4장) | 20점 | 회귀 계수 해석, 잔차 진단 |
| Part 5 (5장) | 20점 | 분류, 혼동행렬, 불균형 데이터 |
| Part 6 (6장) | 15점 | KNN, 트리, 앙상블 |
| Part 7 (7장) | 15점 | PCA, 클러스터링 |
| 합계 | 125점 |
90점 이상: 실무 투입 가능 수준 — 데이터 사이언티스트 기초 완성
70~89점: 개념 이해 양호 — 취약 파트 집중 복습 필요
70점 미만: 해당 장을 다시 정독 후 재도전 권장
관련 포스트
비지도 학습: 통계 기초 정리 7장
PCA, K-평균, 계층적 클러스터링, 혼합 모형(GMM), 스케일링까지 비지도 학습의 핵심 개념을 코드와 함께 정리했습니다.
통계적 머신러닝: 통계 기초 정리 6장
KNN, 결정 트리, 랜덤 포레스트, AdaBoost, 그레이디언트 부스팅까지 트리 기반 앙상블 모델의 핵심 개념을 코드와 함께 정리했습니다.
분류: 통계 기초 정리 5장
나이브 베이즈, 판별분석, 로지스틱 회귀, 혼동행렬, ROC/AUC, 불균형 데이터 처리까지 분류 알고리즘의 핵심 개념을 코드와 함께 정리했습니다.