devlog.

Practical Statistics for Data Scientists 퀴즈

·20분 읽기·

1장부터 7장까지 배운 내용을 얼마나 이해하고 있는지 점검하는 과제입니다. 개념 확인, 계산, 코드 해석, 실무 시나리오 문제로 구성되어 있습니다. 정답은 각 파트 마지막에 있습니다. 정답을 보기 전에 먼저 스스로 풀어보세요.

난이도 표시: ⭐ 기초 / ⭐⭐ 중급 / ⭐⭐⭐ 응용


Part 1 — 기술통계와 데이터 탐색 (1장)#

문제 1-1 ⭐ 개념 확인#

다음 데이터셋의 평균, 중앙값, 최빈값을 구하세요.

{3,7,7,2,9,7,4,1,8}\{3, 7, 7, 2, 9, 7, 4, 1, 8\}

문제 1-2 ⭐ 계산#

아래 데이터의 표본분산과 표본표준편차를 구하세요.

{4,8,6,5,3,2,8,9,2,5}\{4, 8, 6, 5, 3, 2, 8, 9, 2, 5\}

표본분산 공식: s2=1n1i=1n(xixˉ)2s^2 = \dfrac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})^2

문제 1-3 ⭐ 개념 확인#

다음 중 이상값에 강한(robust) 대표값과 산포도를 고르세요.

  1. 평균, 분산
  2. 중앙값, IQR
  3. 평균, 표준편차
  4. 최빈값, 범위

문제 1-4 ⭐⭐ 코드 읽기#

다음 코드를 읽고, 출력 결과를 예측하세요.

import numpy as np

data = np.array([10, 20, 20, 30, 40, 50, 50, 50, 100])

print(np.mean(data))
print(np.median(data))
print(np.percentile(data, 75) - np.percentile(data, 25))

Part 2 — 표본분포와 확률분포 (2장)#

문제 2-1 ⭐ 개념 확인#

다음 빈칸을 채우세요.

중심극한정리(CLT)에 의하면, 모집단의 분포에 상관없이 표본 크기가 충분히 크면 표본 평균의 분포는 ___에 근사한다. 이때 표본 평균의 표준편차(표준오차)는 ___이다.

문제 2-2 ⭐ 계산#

어떤 모집단의 평균은 μ=50\mu = 50, 표준편차는 σ=10\sigma = 10이다.

(a) n=100n = 100의 표본을 추출할 때, 표본 평균의 표준오차는?

(b) 표본 평균이 52 이상일 확률은? (z-점수 계산 후, P(Z>2)=0.0228P(Z > 2) = 0.0228을 사용)

문제 2-3 ⭐⭐ 개념 비교#

부트스트랩(bootstrap)에 대해 다음을 설명하세요.

  1. 부트스트랩이란 무엇인가?
  2. 복원추출과 비복원추출 중 어떤 방식을 사용하는가?
  3. 어떤 상황에서 부트스트랩이 유용한가?

문제 2-4 ⭐⭐ 계산#

이항분포 XB(n=10,p=0.3)X \sim B(n=10, p=0.3)에서 다음을 구하세요.

(a) E[X]E[X]Var(X)\text{Var}(X)

(b) P(X=3)P(X = 3)을 공식으로 표현하세요.

P(X=k)=(nk)pk(1p)nkP(X = k) = \binom{n}{k} p^k (1-p)^{n-k}


Part 3 — 통계적 실험과 유의성 검정 (3장)#

문제 3-1 ⭐ 개념 확인#

다음 중 p-값에 대한 올바른 해석을 고르세요.

  1. p-값은 귀무가설이 참일 확률이다.
  2. p-값은 대립가설이 참일 확률이다.
  3. p-값은 귀무가설이 참일 때, 현재 관측 이상의 극단적인 결과가 나타날 확률이다.
  4. p < 0.05이면 효과가 실질적으로 크다.

문제 3-2 ⭐⭐ 시나리오#

의약품 회사가 새 약이 기존 약보다 효과적인지 검정하고자 합니다.

(a) 귀무가설(H0H_0)과 대립가설(H1H_1)을 설정하세요.

(b) 단측 검정과 양측 검정 중 어느 것이 더 적절한가요? 이유를 설명하세요.

(c) 제1종 오류와 제2종 오류가 각각 이 상황에서 무엇을 의미하는지 설명하세요.

문제 3-3 ⭐⭐ 계산#

세 개의 마케팅 채널(A, B, C)의 전환율을 비교합니다. 각 채널의 표본 크기는 100명씩입니다.

어떤 검정 방법을 사용해야 하며, 귀무가설은 무엇인가요?

만약 F-통계량이 크고 p < 0.05이면 다음 단계로 무엇을 해야 하나요?

문제 3-4 ⭐⭐⭐ 응용#

A/B 검정과 멀티암드 밴딧(MAB)의 차이를 설명하고, 각각이 더 적합한 상황을 하나씩 제시하세요.


Part 4 — 회귀와 예측 (4장)#

문제 4-1 ⭐ 코드 읽기#

아래 회귀 출력을 보고 질문에 답하세요.

OLS Regression Results
===========================================================
Dep. Variable:    매출      R-squared:        0.782
===========================================================
                coef    std err    t      P>|t|
-----------------------------------------------------------
const         12.450    3.210    3.88    0.000
광고비          2.345    0.180   13.03    0.000
직원수          1.820    0.650    2.80    0.006
연식           -0.430    0.210   -2.05    0.043
===========================================================

(a) 광고비가 1단위 증가할 때 매출은 평균 얼마나 변하나요?

(b) 이 모델은 매출 변동의 몇 %를 설명하나요?

(c) 연식 계수의 부호와 의미를 해석하세요.

(d) 유의수준 0.05에서 통계적으로 유의하지 않은 변수가 있나요?

문제 4-2 ⭐⭐ 개념 비교#

개념설명
RMSE?
R2R^2?
신뢰구간?
예측구간?

빈칸을 채우고, 신뢰구간과 예측구간 중 어느 것이 더 넓은지, 그 이유를 설명하세요.

문제 4-3 ⭐⭐ 계산#

단순선형회귀 y=β0+β1xy = \beta_0 + \beta_1 x에서 다음 데이터가 주어졌습니다.

xˉ=5,yˉ=12,(xixˉ)(yiyˉ)=30,(xixˉ)2=10\bar{x} = 5, \quad \bar{y} = 12, \quad \sum(x_i - \bar{x})(y_i - \bar{y}) = 30, \quad \sum(x_i - \bar{x})^2 = 10

(a) β^1\hat{\beta}_1을 구하세요.

(b) β^0\hat{\beta}_0을 구하세요.

(c) x=7x = 7일 때 y^\hat{y}는?

문제 4-4 ⭐⭐⭐ 잔차 진단#

다음 잔차 플롯을 보고 각 문제를 진단하세요. (텍스트로 설명)

  • 상황 A: 잔차 vs 적합값 플롯에서 잔차가 적합값이 커질수록 퍼지는 부채꼴 모양
  • 상황 B: QQ 플롯에서 양쪽 끝이 직선에서 크게 벗어남
  • 상황 C: 지렛대-잔차 플롯에서 오른쪽 위 구석에 점이 하나 있음

각 상황이 어떤 가정 위반을 나타내며, 어떻게 대응하면 좋은지 설명하세요.


Part 5 — 분류 (5장)#

문제 5-1 ⭐ 계산#

다음 혼동행렬을 이용해 정확도, 민감도(재현율), 정밀도, F1-점수를 구하세요.

예측 양성예측 음성
실제 양성8020
실제 음성1090

문제 5-2 ⭐⭐ 개념 확인#

로지스틱 회귀에서 다음을 설명하세요.

(a) 오즈(odds)와 오즈비(odds ratio)의 차이

(b) 계수 β1=0.5\beta_1 = 0.5의 해석 (exp(0.5)1.65\exp(0.5) \approx 1.65를 사용)

(c) 왜 로지스틱 회귀는 직접 확률을 회귀하지 않고 로짓을 사용하는가?

문제 5-3 ⭐⭐ 개념 비교#

나이브 베이즈와 로지스틱 회귀를 다음 관점에서 비교하세요.

관점나이브 베이즈로지스틱 회귀
확률 추정 방식??
주요 가정??
장점??
단점??

문제 5-4 ⭐⭐⭐ 시나리오#

암 진단 모델을 개발합니다. 전체 환자의 3%가 암 양성입니다.

(a) 항상 "음성"만 예측하는 모델의 정확도는?

(b) 이 수치가 의미 없는 이유와 대신 사용해야 할 지표는?

(c) 이 문제에서 제1종 오류(양성을 음성으로 판정)와 제2종 오류(음성을 양성으로 판정) 중 어느 것이 더 심각한가요? 이유를 설명하세요.

(d) 불균형 데이터 문제를 해결하는 방법 3가지를 설명하세요.


Part 6 — 통계적 머신러닝 (6장)#

문제 6-1 ⭐ 개념 확인#

KNN 알고리즘에서 다음 물음에 답하세요.

(a) kk가 너무 작을 때(예: k=1k=1)와 너무 클 때(예: k=nk=n)의 문제점은?

(b) KNN에서 표준화가 필수인 이유를 예를 들어 설명하세요.

(c) 텍스트 분류에서 유클리드 거리보다 코사인 거리가 더 적합한 이유는?

문제 6-2 ⭐⭐ 코드 읽기#

다음 코드를 읽고 질문에 답하세요.

from sklearn.tree import DecisionTreeClassifier

dt = DecisionTreeClassifier(max_depth=None, random_state=42)
dt.fit(X_train, y_train)

print(dt.score(X_train, y_train))  # 출력: 1.0
print(dt.score(X_test, y_test))    # 출력: 0.71

(a) 훈련 정확도 1.0이 의미하는 것은?

(b) 이를 해결하는 방법을 2가지 이상 제시하세요.

(c) 랜덤 포레스트가 단일 트리보다 나은 이유를 "편향-분산 트레이드오프" 관점에서 설명하세요.

문제 6-3 ⭐⭐ 개념 비교#

배깅과 부스팅을 비교하세요.

항목배깅부스팅
학습 순서??
주로 줄이는 오차??
이상값 민감도??
대표 알고리즘??

문제 6-4 ⭐⭐⭐ 응용#

그레이디언트 부스팅 모델을 학습할 때, 다음 상황별로 하이퍼파라미터를 어떻게 조정해야 하나요?

  • 상황 A: 훈련 정확도는 0.98, 테스트 정확도는 0.72 (과대적합)
  • 상황 B: 훈련/테스트 정확도 모두 0.73 (과소적합)
  • 상황 C: 모델이 너무 느려 배포가 어려움

Part 7 — 비지도 학습 (7장)#

문제 7-1 ⭐ 개념 확인#

PCA에 대한 설명으로 틀린 것을 고르세요.

  1. PCA는 분산을 최대한 보존하는 방향으로 데이터를 투영한다.
  2. 주성분들은 서로 직교(orthogonal)한다.
  3. PCA 수행 전 표준화는 선택 사항이다.
  4. 스크리그래프의 엘보 포인트에서 주성분 수를 결정한다.

문제 7-2 ⭐⭐ 계산#

K-평균 클러스터링에서 다음 데이터와 초기 중심이 주어졌습니다.

데이터: A(1,1), B(2,1), C(4,3), D(5,4), E(3,2)\text{데이터: } A(1,1),\ B(2,1),\ C(4,3),\ D(5,4),\ E(3,2)

초기 중심: μ1=(1,1), μ2=(5,4)\text{초기 중심: } \mu_1 = (1,1),\ \mu_2 = (5,4)

(a) 1회 반복 후 각 포인트의 클러스터 할당을 구하세요. (유클리드 거리 사용)

(b) 새로운 중심을 계산하세요.

문제 7-3 ⭐⭐ 개념 비교#

K-평균과 계층적 클러스터링을 비교하세요.

항목K-평균계층적 클러스터링
K 사전 지정??
결과 시각화??
시간 복잡도??
이상값 영향??
결정적 결과??

문제 7-4 ⭐⭐⭐ 시나리오#

고객 데이터를 클러스터링하여 세분화하려 합니다. 변수: 나이(수치), 연소득(수치), 지역(범주: 수도권/지방), 회원 여부(이진: Y/N)

(a) 스케일링이 필요한 변수와 이유를 설명하세요.

(b) 범주형/이진형 변수를 어떻게 처리할지 2가지 방법을 설명하세요.

(c) K-평균, 계층적 클러스터링, GMM 중 이 상황에 가장 적합한 방법과 이유는?


정답 및 해설#

Part 1 정답#

1-1.

{1,2,3,4,7,7,7,8,9} (정렬 후)\{1, 2, 3, 4, 7, 7, 7, 8, 9\} \text{ (정렬 후)}

  • 평균: 3+7+7+2+9+7+4+1+89=4895.33\dfrac{3+7+7+2+9+7+4+1+8}{9} = \dfrac{48}{9} \approx 5.33
  • 중앙값: 정렬 시 5번째 값 = 77
  • 최빈값: 77 (3회)

1-2.

xˉ=4+8+6+5+3+2+8+9+2+510=5210=5.2\bar{x} = \dfrac{4+8+6+5+3+2+8+9+2+5}{10} = \dfrac{52}{10} = 5.2

s2=(45.2)2+(85.2)2++(55.2)29=54.496.04s^2 = \frac{(4-5.2)^2+(8-5.2)^2+\cdots+(5-5.2)^2}{9} = \frac{54.4}{9} \approx 6.04

s=6.042.46s = \sqrt{6.04} \approx 2.46

1-3.2번 — 중앙값, IQR은 이상값의 영향을 받지 않는 강건 통계량입니다.

1-4. 출력 결과:

  • np.mean(data)43.33... (이상값 100이 평균을 왜곡)
  • np.median(data)40.0
  • IQR = np.percentile(data, 75) - np.percentile(data, 25) = 50 - 20 = 30.0

Part 2 정답#

2-1. 표본 평균의 분포는 정규분포에 근사하며, 표준오차는 σn\dfrac{\sigma}{\sqrt{n}}이다.

2-2.

(a) 표준오차 =10100=1.0= \dfrac{10}{\sqrt{100}} = 1.0

(b) z=52501=2z = \dfrac{52 - 50}{1} = 2, P(Xˉ52)=P(Z>2)=0.0228P(\bar{X} \geq 52) = P(Z > 2) = 0.0228

2-3.

  1. 부트스트랩: 주어진 표본에서 복원추출로 새 표본을 반복 생성해 통계량의 분포를 추정하는 재표본 방법
  2. 복원추출 사용 (같은 데이터가 여러 번 뽑힐 수 있음)
  3. 표본 수가 적거나, 통계량의 이론적 분포를 모를 때, 신뢰구간 추정이 필요할 때

2-4.

(a) E[X]=np=10×0.3=3E[X] = np = 10 \times 0.3 = 3, Var(X)=np(1p)=10×0.3×0.7=2.1\text{Var}(X) = np(1-p) = 10 \times 0.3 \times 0.7 = 2.1

(b) P(X=3)=(103)(0.3)3(0.7)7=120×0.027×0.08240.267P(X=3) = \dbinom{10}{3}(0.3)^3(0.7)^7 = 120 \times 0.027 \times 0.0824 \approx 0.267


Part 3 정답#

3-1.3번 — p-값은 귀무가설이 참일 때 현재 결과 이상으로 극단적인 값이 나타날 확률입니다.

3-2.

(a) H0H_0: 새 약과 기존 약의 효과는 같다 (μnew=μold\mu_{\text{new}} = \mu_{\text{old}}) H1H_1: 새 약이 더 효과적이다 (μnew>μold\mu_{\text{new}} > \mu_{\text{old}})

(b) 단측 검정 — "더 효과적인가?"라는 방향이 명확한 질문이므로

(c)

  • 제1종 오류 (α\alpha): 실제로는 효과가 없는데 효과 있다고 판정 → 효과 없는 약을 승인
  • 제2종 오류 (β\beta): 실제로 효과 있는데 없다고 판정 → 유익한 약을 놓침

3-3. 분산분석(ANOVA) 사용. 귀무가설: μA=μB=μC\mu_A = \mu_B = \mu_C (세 채널의 전환율은 모두 같다). F-통계량이 유의하면 **사후 검정(Tukey HSD 등)**으로 어느 채널 쌍이 다른지 확인합니다.

3-4. A/B 검정은 탐색 기간 동안 열등한 버전에도 동등하게 노출시켜 기회 손실이 발생합니다. MAB는 성과에 따라 노출을 동적 조정해 손실을 줄입니다. A/B 검정 적합: 정밀한 통계 추론이 필요한 약물 임상시험. MAB 적합: 실시간 광고 최적화, 넷플릭스 콘텐츠 추천.


Part 4 정답#

4-1.

(a) 광고비 1단위 증가 시 매출 평균 2.345 증가 (다른 변수 고정)

(b) **78.2%**의 변동 설명 (R2=0.782R^2 = 0.782)

(c) 연식이 1 증가할수록 매출이 평균 0.430 감소 (오래될수록 성과 저하)

(d) 없음 — 모든 변수의 p-값이 0.05 미만으로 유의

4-2.

  • RMSE: 예측 오차의 평균 크기 (단위: 응답변수와 동일)
  • R2R^2: 모델이 설명하는 변동의 비율 (0~1, 1에 가까울수록 좋음)
  • 신뢰구간: 모집단 평균 응답값의 불확실성 범위
  • 예측구간: 새로운 개별 관측값의 불확실성 범위

예측구간이 더 넓음 — 개별 관측값에는 평균의 불확실성 + 개별 오차(ε\varepsilon)가 모두 포함되기 때문

4-3.

(a) β^1=3010=3\hat{\beta}_1 = \dfrac{30}{10} = 3

(b) β^0=yˉβ^1xˉ=123×5=3\hat{\beta}_0 = \bar{y} - \hat{\beta}_1 \bar{x} = 12 - 3 \times 5 = -3

(c) y^=3+3×7=18\hat{y} = -3 + 3 \times 7 = 18

4-4.

  • 상황 A: 이분산성(heteroscedasticity) — 오차 분산이 일정하지 않음 → 로그 변환 또는 가중회귀 적용
  • 상황 B: 비정규 잔차 — 정규성 가정 위반 → 변수 변환, 강건 회귀 고려
  • 상황 C: 영향값(influential point) — 지렛대 높고 잔차 큰 관측값 → 데이터 오류 확인 후 제거 또는 강건 회귀

Part 5 정답#

5-1.

정확도=80+9080+20+10+90=170200=0.85\text{정확도} = \frac{80+90}{80+20+10+90} = \frac{170}{200} = 0.85

민감도(재현율)=8080+20=80100=0.80\text{민감도(재현율)} = \frac{80}{80+20} = \frac{80}{100} = 0.80

정밀도=8080+10=80900.889\text{정밀도} = \frac{80}{80+10} = \frac{80}{90} \approx 0.889

F1=2×0.889×0.800.889+0.80=2×0.7111.6890.842F_1 = 2 \times \frac{0.889 \times 0.80}{0.889 + 0.80} = 2 \times \frac{0.711}{1.689} \approx 0.842

5-2.

(a) 오즈 = p1p\dfrac{p}{1-p} (한 관측값의 발생/미발생 비율). 오즈비 = 두 오즈의 비율 (변수 1단위 증가 시 오즈 변화 배율).

(b) exp(0.5)1.65\exp(0.5) \approx 1.65x1x_1이 1단위 증가하면 사건 발생 오즈가 약 65% 증가

(c) 확률 pp[0,1][0,1] 범위인 반면, 선형 조합 β0+β1x\beta_0 + \beta_1 x는 실수 전체 범위입니다. 로짓은 pp를 실수 전체로 변환하는 연결 함수입니다.

5-3.

관점나이브 베이즈로지스틱 회귀
확률 추정 방식생성 모델 (P(X|C) 추정)판별 모델 (P(C|X) 직접 추정)
주요 가정특징 간 조건부 독립로짓이 특징의 선형 결합
장점빠름, 소규모 데이터에 강함확률 보정 우수, 다중공선성 처리 가능
단점독립 가정 현실적으로 성립 어려움대용량 데이터 필요, 특징 스케일 민감

5-4.

(a) 97% (음성 비율) — 항상 음성만 예측해도 정확도 0.97

(b) 실제 관심사인 양성(암)을 전혀 탐지하지 못하기 때문. 재현율(Sensitivity), AUC, F1 사용

(c) 제1종 오류가 더 심각 — 실제 암 환자를 음성으로 판정하면 치료 기회를 놓쳐 생명에 위험. 제2종 오류(정상인을 양성으로 판정)는 추가 검사로 확인 가능

(d) ① SMOTE(합성 과잉표본) ② 클래스 가중치 조정(class_weight='balanced') ③ 분류 임계값 낮추기 (재현율 향상)


Part 6 정답#

6-1.

(a) k=1k=1: 이웃 1개에 과의존 → 과대적합, 잡음에 민감. k=nk=n: 모든 데이터가 이웃 → 항상 다수 클래스 예측 → 과소적합

(b) 소득(만원)과 나이(년) 같이 단위가 다른 변수가 있으면, 소득이 거리를 지배. 표준화로 균일하게 반영

(c) 텍스트에서는 문서 길이보다 단어 분포의 방향이 유사도에 중요. 코사인은 크기가 아닌 방향(각도)을 측정

6-2.

(a) 훈련 데이터를 완벽하게 암기한 과대적합(overfitting)

(b) ① max_depth 제한 ② min_samples_leaf 증가 ③ 가지치기(pruning) ④ 랜덤 포레스트로 교체

(c) 단일 트리는 분산이 매우 높습니다(데이터 변화에 민감). 랜덤 포레스트는 여러 트리를 평균해 분산을 줄입니다. 편향은 유지되지만 분산이 크게 낮아져 일반화 성능이 향상됩니다.

6-3.

항목배깅부스팅
학습 순서병렬 (독립적)순차 (이전 오차 반영)
주로 줄이는 오차분산(Variance)편향(Bias)
이상값 민감도낮음높음 (잘못 분류에 가중치)
대표 알고리즘랜덤 포레스트XGBoost, LightGBM, AdaBoost

6-4.

  • 상황 A (과대적합): learning_rate 감소, max_depth 축소, subsample 추가, n_estimators 줄이기, 정규화(L1/L2L1/L2) 추가
  • 상황 B (과소적합): n_estimators 증가, learning_rate 높이기, max_depth 증가
  • 상황 C (속도 문제): LightGBM으로 교체, n_estimators 줄이기, 특징 수 축소(PCA), 조기 종료(early stopping)

Part 7 정답#

7-1.3번 — PCA 수행 전 표준화는 필수입니다. 스케일이 큰 변수가 주성분을 지배하게 됩니다.

7-2.

(a) 유클리드 거리 계산:

포인트d(μ1=(1,1))d(\mu_1=(1,1))d(μ2=(5,4))d(\mu_2=(5,4))할당
A(1,1)025=5\sqrt{25}=5클러스터 1
B(2,1)1133.6\sqrt{13}\approx3.6클러스터 1
C(4,3)133.6\sqrt{13}\approx3.621.4\sqrt{2}\approx1.4클러스터 2
D(5,4)25=5\sqrt{25}=50클러스터 2
E(3,2)52.2\sqrt{5}\approx2.282.8\sqrt{8}\approx2.8클러스터 1

(b) 새로운 중심: μ1=A+B+E3=(1+2+3,1+1+2)3=(2,43)(2,1.33)\mu_1 = \frac{A+B+E}{3} = \frac{(1+2+3, 1+1+2)}{3} = (2, \tfrac{4}{3}) \approx (2, 1.33) μ2=C+D2=(4+5,3+4)2=(4.5,3.5)\mu_2 = \frac{C+D}{2} = \frac{(4+5, 3+4)}{2} = (4.5, 3.5)

7-3.

항목K-평균계층적 클러스터링
K 사전 지정필요불필요 (사후 결정)
결과 시각화산점도덴드로그램
시간 복잡도O(nKt)O(nKt) — 빠름O(n2)O(n^2) — 느림
이상값 영향중심값 왜곡단일 연결 시 민감
결정적 결과아니오 (초기값 의존)예 (거리 기반 고정)

7-4.

(a) 나이, 연소득 — 스케일 차이로 거리 계산이 왜곡됨. 표준화 또는 MinMaxScaling 적용

(b) ① 원-핫 인코딩 후 표준화 ② 고워 거리(Gower Distance)로 통합 처리 — 수치/범주/이진 혼합 데이터를 [0,1] 유사도로 통합

(c) 고워 거리 기반 계층적 클러스터링 또는 GMM 권장. K-평균은 유클리드 거리만 지원해 범주형 처리가 불편합니다. 고객 수가 많지 않다면 계층적 클러스터링으로 덴드로그램을 보며 K를 결정하는 것이 직관적입니다.


채점 기준#

파트총 점수내용
Part 1 (1장)20점기술통계 개념 및 계산
Part 2 (2장)20점표본분포, 부트스트랩, 확률분포
Part 3 (3장)15점가설검정, p-값, A/B 검정
Part 4 (4장)20점회귀 계수 해석, 잔차 진단
Part 5 (5장)20점분류, 혼동행렬, 불균형 데이터
Part 6 (6장)15점KNN, 트리, 앙상블
Part 7 (7장)15점PCA, 클러스터링
합계125점

90점 이상: 실무 투입 가능 수준 — 데이터 사이언티스트 기초 완성

70~89점: 개념 이해 양호 — 취약 파트 집중 복습 필요

70점 미만: 해당 장을 다시 정독 후 재도전 권장

관련 포스트