devlog.
메뉴

카테고리

태그

데이터사이언스

Practical Statistics for Data Scientists 퀴즈

·20분 읽기·

1장부터 7장까지 배운 내용을 얼마나 이해하고 있는지 점검하는 과제입니다. 개념 확인, 계산, 코드 해석, 실무 시나리오 문제로 구성되어 있습니다. 정답은 각 파트 마지막에 있습니다. 정답을 보기 전에 먼저 스스로 풀어보세요.

난이도 표시: ⭐ 기초 / ⭐⭐ 중급 / ⭐⭐⭐ 응용


Part 1 — 기술통계와 데이터 탐색 (1장)#

문제 1-1 ⭐ 개념 확인#

다음 데이터셋의 평균, 중앙값, 최빈값을 구하세요.


{3,7,7,2,9,7,4,1,8}\{3, 7, 7, 2, 9, 7, 4, 1, 8\}

문제 1-2 ⭐ 계산#

아래 데이터의 표본분산과 표본표준편차를 구하세요.


{4,8,6,5,3,2,8,9,2,5}\{4, 8, 6, 5, 3, 2, 8, 9, 2, 5\}


표본분산 공식: s2=1n1i=1n(xixˉ)2s^2 = \dfrac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})^2

문제 1-3 ⭐ 개념 확인#

다음 중 이상값에 강한(robust) 대표값과 산포도를 고르세요.

  1. 평균, 분산
  2. 중앙값, IQR
  3. 평균, 표준편차
  4. 최빈값, 범위

문제 1-4 ⭐⭐ 코드 읽기#

다음 코드를 읽고, 출력 결과를 예측하세요.

import numpy as np

data = np.array([10, 20, 20, 30, 40, 50, 50, 50, 100])

print(np.mean(data))
print(np.median(data))
print(np.percentile(data, 75) - np.percentile(data, 25))

Part 2 — 표본분포와 확률분포 (2장)#

문제 2-1 ⭐ 개념 확인#

다음 빈칸을 채우세요.

중심극한정리(CLT)에 의하면, 모집단의 분포에 상관없이 표본 크기가 충분히 크면 표본 평균의 분포는 ___에 근사한다. 이때 표본 평균의 표준편차(표준오차)는 ___이다.

문제 2-2 ⭐ 계산#

어떤 모집단의 평균은 μ=50\mu = 50, 표준편차는 σ=10\sigma = 10이다.

(a) n=100n = 100의 표본을 추출할 때, 표본 평균의 표준오차는?

(b) 표본 평균이 52 이상일 확률은? (z-점수 계산 후, P(Z>2)=0.0228P(Z > 2) = 0.0228을 사용)

문제 2-3 ⭐⭐ 개념 비교#

부트스트랩(bootstrap)에 대해 다음을 설명하세요.

  1. 부트스트랩이란 무엇인가?
  2. 복원추출과 비복원추출 중 어떤 방식을 사용하는가?
  3. 어떤 상황에서 부트스트랩이 유용한가?

문제 2-4 ⭐⭐ 계산#

이항분포 XB(n=10,p=0.3)X \sim B(n=10, p=0.3)에서 다음을 구하세요.

(a) E[X]E[X]Var(X)\text{Var}(X)

(b) P(X=3)P(X = 3)을 공식으로 표현하세요.


P(X=k)=(nk)pk(1p)nkP(X = k) = \binom{n}{k} p^k (1-p)^{n-k}


Part 3 — 통계적 실험과 유의성 검정 (3장)#

문제 3-1 ⭐ 개념 확인#

다음 중 p-값에 대한 올바른 해석을 고르세요.

  1. p-값은 귀무가설이 참일 확률이다.
  2. p-값은 대립가설이 참일 확률이다.
  3. p-값은 귀무가설이 참일 때, 현재 관측 이상의 극단적인 결과가 나타날 확률이다.
  4. p < 0.05이면 효과가 실질적으로 크다.

문제 3-2 ⭐⭐ 시나리오#

의약품 회사가 새 약이 기존 약보다 효과적인지 검정하고자 합니다.

(a) 귀무가설(H0H_0)과 대립가설(H1H_1)을 설정하세요.

(b) 단측 검정과 양측 검정 중 어느 것이 더 적절한가요? 이유를 설명하세요.

(c) 제1종 오류와 제2종 오류가 각각 이 상황에서 무엇을 의미하는지 설명하세요.

문제 3-3 ⭐⭐ 계산#

세 개의 마케팅 채널(A, B, C)의 전환율을 비교합니다. 각 채널의 표본 크기는 100명씩입니다.

어떤 검정 방법을 사용해야 하며, 귀무가설은 무엇인가요?

만약 F-통계량이 크고 p < 0.05이면 다음 단계로 무엇을 해야 하나요?

문제 3-4 ⭐⭐⭐ 응용#

A/B 검정과 멀티암드 밴딧(MAB)의 차이를 설명하고, 각각이 더 적합한 상황을 하나씩 제시하세요.


Part 4 — 회귀와 예측 (4장)#

문제 4-1 ⭐ 코드 읽기#

아래 회귀 출력을 보고 질문에 답하세요.

OLS Regression Results
===========================================================
Dep. Variable:    매출      R-squared:        0.782
===========================================================
                coef    std err    t      P>|t|
-----------------------------------------------------------
const         12.450    3.210    3.88    0.000
광고비          2.345    0.180   13.03    0.000
직원수          1.820    0.650    2.80    0.006
연식           -0.430    0.210   -2.05    0.043
===========================================================

(a) 광고비가 1단위 증가할 때 매출은 평균 얼마나 변하나요?

(b) 이 모델은 매출 변동의 몇 %를 설명하나요?

(c) 연식 계수의 부호와 의미를 해석하세요.

(d) 유의수준 0.05에서 통계적으로 유의하지 않은 변수가 있나요?

문제 4-2 ⭐⭐ 개념 비교#

개념설명
RMSE?
R2R^2?
신뢰구간?
예측구간?

빈칸을 채우고, 신뢰구간과 예측구간 중 어느 것이 더 넓은지, 그 이유를 설명하세요.

문제 4-3 ⭐⭐ 계산#

단순선형회귀 y=β0+β1xy = \beta_0 + \beta_1 x에서 다음 데이터가 주어졌습니다.


xˉ=5,yˉ=12,(xixˉ)(yiyˉ)=30,(xixˉ)2=10\bar{x} = 5, \quad \bar{y} = 12, \quad \sum(x_i - \bar{x})(y_i - \bar{y}) = 30, \quad \sum(x_i - \bar{x})^2 = 10


(a) β^1\hat{\beta}_1을 구하세요.

(b) β^0\hat{\beta}_0을 구하세요.

(c) x=7x = 7일 때 y^\hat{y}는?

문제 4-4 ⭐⭐⭐ 잔차 진단#

다음 잔차 플롯을 보고 각 문제를 진단하세요. (텍스트로 설명)

  • 상황 A: 잔차 vs 적합값 플롯에서 잔차가 적합값이 커질수록 퍼지는 부채꼴 모양
  • 상황 B: QQ 플롯에서 양쪽 끝이 직선에서 크게 벗어남
  • 상황 C: 지렛대-잔차 플롯에서 오른쪽 위 구석에 점이 하나 있음

각 상황이 어떤 가정 위반을 나타내며, 어떻게 대응하면 좋은지 설명하세요.


Part 5 — 분류 (5장)#

문제 5-1 ⭐ 계산#

다음 혼동행렬을 이용해 정확도, 민감도(재현율), 정밀도, F1-점수를 구하세요.

예측 양성예측 음성
실제 양성8020
실제 음성1090

문제 5-2 ⭐⭐ 개념 확인#

로지스틱 회귀에서 다음을 설명하세요.

(a) 오즈(odds)와 오즈비(odds ratio)의 차이

(b) 계수 β1=0.5\beta_1 = 0.5의 해석 (exp(0.5)1.65\exp(0.5) \approx 1.65를 사용)

(c) 왜 로지스틱 회귀는 직접 확률을 회귀하지 않고 로짓을 사용하는가?

문제 5-3 ⭐⭐ 개념 비교#

나이브 베이즈와 로지스틱 회귀를 다음 관점에서 비교하세요.

관점나이브 베이즈로지스틱 회귀
확률 추정 방식??
주요 가정??
장점??
단점??

문제 5-4 ⭐⭐⭐ 시나리오#

암 진단 모델을 개발합니다. 전체 환자의 3%가 암 양성입니다.

(a) 항상 "음성"만 예측하는 모델의 정확도는?

(b) 이 수치가 의미 없는 이유와 대신 사용해야 할 지표는?

(c) 이 문제에서 제1종 오류(양성을 음성으로 판정)와 제2종 오류(음성을 양성으로 판정) 중 어느 것이 더 심각한가요? 이유를 설명하세요.

(d) 불균형 데이터 문제를 해결하는 방법 3가지를 설명하세요.


Part 6 — 통계적 머신러닝 (6장)#

문제 6-1 ⭐ 개념 확인#

KNN 알고리즘에서 다음 물음에 답하세요.

(a) kk가 너무 작을 때(예: k=1k=1)와 너무 클 때(예: k=nk=n)의 문제점은?

(b) KNN에서 표준화가 필수인 이유를 예를 들어 설명하세요.

(c) 텍스트 분류에서 유클리드 거리보다 코사인 거리가 더 적합한 이유는?

문제 6-2 ⭐⭐ 코드 읽기#

다음 코드를 읽고 질문에 답하세요.

from sklearn.tree import DecisionTreeClassifier

dt = DecisionTreeClassifier(max_depth=None, random_state=42)
dt.fit(X_train, y_train)

print(dt.score(X_train, y_train))  # 출력: 1.0
print(dt.score(X_test, y_test))    # 출력: 0.71

(a) 훈련 정확도 1.0이 의미하는 것은?

(b) 이를 해결하는 방법을 2가지 이상 제시하세요.

(c) 랜덤 포레스트가 단일 트리보다 나은 이유를 "편향-분산 트레이드오프" 관점에서 설명하세요.

문제 6-3 ⭐⭐ 개념 비교#

배깅과 부스팅을 비교하세요.

항목배깅부스팅
학습 순서??
주로 줄이는 오차??
이상값 민감도??
대표 알고리즘??

문제 6-4 ⭐⭐⭐ 응용#

그레이디언트 부스팅 모델을 학습할 때, 다음 상황별로 하이퍼파라미터를 어떻게 조정해야 하나요?

  • 상황 A: 훈련 정확도는 0.98, 테스트 정확도는 0.72 (과대적합)
  • 상황 B: 훈련/테스트 정확도 모두 0.73 (과소적합)
  • 상황 C: 모델이 너무 느려 배포가 어려움

Part 7 — 비지도 학습 (7장)#

문제 7-1 ⭐ 개념 확인#

PCA에 대한 설명으로 틀린 것을 고르세요.

  1. PCA는 분산을 최대한 보존하는 방향으로 데이터를 투영한다.
  2. 주성분들은 서로 직교(orthogonal)한다.
  3. PCA 수행 전 표준화는 선택 사항이다.
  4. 스크리그래프의 엘보 포인트에서 주성분 수를 결정한다.

문제 7-2 ⭐⭐ 계산#

K-평균 클러스터링에서 다음 데이터와 초기 중심이 주어졌습니다.


데이터: A(1,1), B(2,1), C(4,3), D(5,4), E(3,2)\text{데이터: } A(1,1),\ B(2,1),\ C(4,3),\ D(5,4),\ E(3,2)


초기 중심: μ1=(1,1), μ2=(5,4)\text{초기 중심: } \mu_1 = (1,1),\ \mu_2 = (5,4)


(a) 1회 반복 후 각 포인트의 클러스터 할당을 구하세요. (유클리드 거리 사용)

(b) 새로운 중심을 계산하세요.

문제 7-3 ⭐⭐ 개념 비교#

K-평균과 계층적 클러스터링을 비교하세요.

항목K-평균계층적 클러스터링
K 사전 지정??
결과 시각화??
시간 복잡도??
이상값 영향??
결정적 결과??

문제 7-4 ⭐⭐⭐ 시나리오#

고객 데이터를 클러스터링하여 세분화하려 합니다. 변수: 나이(수치), 연소득(수치), 지역(범주: 수도권/지방), 회원 여부(이진: Y/N)

(a) 스케일링이 필요한 변수와 이유를 설명하세요.

(b) 범주형/이진형 변수를 어떻게 처리할지 2가지 방법을 설명하세요.

(c) K-평균, 계층적 클러스터링, GMM 중 이 상황에 가장 적합한 방법과 이유는?



정답 및 해설#

Part 1 정답#

1-1.


{1,2,3,4,7,7,7,8,9} (정렬 후)\{1, 2, 3, 4, 7, 7, 7, 8, 9\} \text{ (정렬 후)}


  • 평균: 3+7+7+2+9+7+4+1+89=4895.33\dfrac{3+7+7+2+9+7+4+1+8}{9} = \dfrac{48}{9} \approx 5.33
  • 중앙값: 정렬 시 5번째 값 = 77
  • 최빈값: 77 (3회)

1-2.

xˉ=4+8+6+5+3+2+8+9+2+510=5210=5.2\bar{x} = \dfrac{4+8+6+5+3+2+8+9+2+5}{10} = \dfrac{52}{10} = 5.2


s2=(45.2)2+(85.2)2++(55.2)29=54.496.04s^2 = \frac{(4-5.2)^2+(8-5.2)^2+\cdots+(5-5.2)^2}{9} = \frac{54.4}{9} \approx 6.04


s=6.042.46s = \sqrt{6.04} \approx 2.46


1-3.2번 — 중앙값, IQR은 이상값의 영향을 받지 않는 강건 통계량입니다.

1-4. 출력 결과:

  • np.mean(data)43.33... (이상값 100이 평균을 왜곡)
  • np.median(data)40.0
  • IQR = np.percentile(data, 75) - np.percentile(data, 25) = 50 - 20 = 30.0

Part 2 정답#

2-1. 표본 평균의 분포는 정규분포에 근사하며, 표준오차는 σn\dfrac{\sigma}{\sqrt{n}}이다.

2-2.

(a) 표준오차 =10100=1.0= \dfrac{10}{\sqrt{100}} = 1.0

(b) z=52501=2z = \dfrac{52 - 50}{1} = 2, P(Xˉ52)=P(Z>2)=0.0228P(\bar{X} \geq 52) = P(Z > 2) = 0.0228

2-3.

  1. 부트스트랩: 주어진 표본에서 복원추출로 새 표본을 반복 생성해 통계량의 분포를 추정하는 재표본 방법
  2. 복원추출 사용 (같은 데이터가 여러 번 뽑힐 수 있음)
  3. 표본 수가 적거나, 통계량의 이론적 분포를 모를 때, 신뢰구간 추정이 필요할 때

2-4.

(a) E[X]=np=10×0.3=3E[X] = np = 10 \times 0.3 = 3, Var(X)=np(1p)=10×0.3×0.7=2.1\text{Var}(X) = np(1-p) = 10 \times 0.3 \times 0.7 = 2.1

(b) P(X=3)=(103)(0.3)3(0.7)7=120×0.027×0.08240.267P(X=3) = \dbinom{10}{3}(0.3)^3(0.7)^7 = 120 \times 0.027 \times 0.0824 \approx 0.267


Part 3 정답#

3-1.3번 — p-값은 귀무가설이 참일 때 현재 결과 이상으로 극단적인 값이 나타날 확률입니다.

3-2.

(a) H0H_0: 새 약과 기존 약의 효과는 같다 (μnew=μold\mu_{\text{new}} = \mu_{\text{old}}) H1H_1: 새 약이 더 효과적이다 (μnew>μold\mu_{\text{new}} > \mu_{\text{old}})

(b) 단측 검정 — "더 효과적인가?"라는 방향이 명확한 질문이므로

(c)

  • 제1종 오류 (α\alpha): 실제로는 효과가 없는데 효과 있다고 판정 → 효과 없는 약을 승인
  • 제2종 오류 (β\beta): 실제로 효과 있는데 없다고 판정 → 유익한 약을 놓침

3-3. 분산분석(ANOVA) 사용. 귀무가설: μA=μB=μC\mu_A = \mu_B = \mu_C (세 채널의 전환율은 모두 같다). F-통계량이 유의하면 **사후 검정(Tukey HSD 등)**으로 어느 채널 쌍이 다른지 확인합니다.

3-4. A/B 검정은 탐색 기간 동안 열등한 버전에도 동등하게 노출시켜 기회 손실이 발생합니다. MAB는 성과에 따라 노출을 동적 조정해 손실을 줄입니다. A/B 검정 적합: 정밀한 통계 추론이 필요한 약물 임상시험. MAB 적합: 실시간 광고 최적화, 넷플릭스 콘텐츠 추천.


Part 4 정답#

4-1.

(a) 광고비 1단위 증가 시 매출 평균 2.345 증가 (다른 변수 고정)

(b) **78.2%**의 변동 설명 (R2=0.782R^2 = 0.782)

(c) 연식이 1 증가할수록 매출이 평균 0.430 감소 (오래될수록 성과 저하)

(d) 없음 — 모든 변수의 p-값이 0.05 미만으로 유의

4-2.

  • RMSE: 예측 오차의 평균 크기 (단위: 응답변수와 동일)
  • R2R^2: 모델이 설명하는 변동의 비율 (0~1, 1에 가까울수록 좋음)
  • 신뢰구간: 모집단 평균 응답값의 불확실성 범위
  • 예측구간: 새로운 개별 관측값의 불확실성 범위

예측구간이 더 넓음 — 개별 관측값에는 평균의 불확실성 + 개별 오차(ε\varepsilon)가 모두 포함되기 때문

4-3.

(a) β^1=3010=3\hat{\beta}_1 = \dfrac{30}{10} = 3

(b) β^0=yˉβ^1xˉ=123×5=3\hat{\beta}_0 = \bar{y} - \hat{\beta}_1 \bar{x} = 12 - 3 \times 5 = -3

(c) y^=3+3×7=18\hat{y} = -3 + 3 \times 7 = 18

4-4.

  • 상황 A: 이분산성(heteroscedasticity) — 오차 분산이 일정하지 않음 → 로그 변환 또는 가중회귀 적용
  • 상황 B: 비정규 잔차 — 정규성 가정 위반 → 변수 변환, 강건 회귀 고려
  • 상황 C: 영향값(influential point) — 지렛대 높고 잔차 큰 관측값 → 데이터 오류 확인 후 제거 또는 강건 회귀

Part 5 정답#

5-1.


정확도=80+9080+20+10+90=170200=0.85\text{정확도} = \frac{80+90}{80+20+10+90} = \frac{170}{200} = 0.85


민감도(재현율)=8080+20=80100=0.80\text{민감도(재현율)} = \frac{80}{80+20} = \frac{80}{100} = 0.80


정밀도=8080+10=80900.889\text{정밀도} = \frac{80}{80+10} = \frac{80}{90} \approx 0.889


F1=2×0.889×0.800.889+0.80=2×0.7111.6890.842F_1 = 2 \times \frac{0.889 \times 0.80}{0.889 + 0.80} = 2 \times \frac{0.711}{1.689} \approx 0.842


5-2.

(a) 오즈 = p1p\dfrac{p}{1-p} (한 관측값의 발생/미발생 비율). 오즈비 = 두 오즈의 비율 (변수 1단위 증가 시 오즈 변화 배율).

(b) exp(0.5)1.65\exp(0.5) \approx 1.65x1x_1이 1단위 증가하면 사건 발생 오즈가 약 65% 증가

(c) 확률 pp[0,1][0,1] 범위인 반면, 선형 조합 β0+β1x\beta_0 + \beta_1 x는 실수 전체 범위입니다. 로짓은 pp를 실수 전체로 변환하는 연결 함수입니다.

5-3.

관점나이브 베이즈로지스틱 회귀
확률 추정 방식생성 모델 (P(X|C) 추정)판별 모델 (P(C|X) 직접 추정)
주요 가정특징 간 조건부 독립로짓이 특징의 선형 결합
장점빠름, 소규모 데이터에 강함확률 보정 우수, 다중공선성 처리 가능
단점독립 가정 현실적으로 성립 어려움대용량 데이터 필요, 특징 스케일 민감

5-4.

(a) 97% (음성 비율) — 항상 음성만 예측해도 정확도 0.97

(b) 실제 관심사인 양성(암)을 전혀 탐지하지 못하기 때문. 재현율(Sensitivity), AUC, F1 사용

(c) 제1종 오류가 더 심각 — 실제 암 환자를 음성으로 판정하면 치료 기회를 놓쳐 생명에 위험. 제2종 오류(정상인을 양성으로 판정)는 추가 검사로 확인 가능

(d) ① SMOTE(합성 과잉표본) ② 클래스 가중치 조정(class_weight='balanced') ③ 분류 임계값 낮추기 (재현율 향상)


Part 6 정답#

6-1.

(a) k=1k=1: 이웃 1개에 과의존 → 과대적합, 잡음에 민감. k=nk=n: 모든 데이터가 이웃 → 항상 다수 클래스 예측 → 과소적합

(b) 소득(만원)과 나이(년) 같이 단위가 다른 변수가 있으면, 소득이 거리를 지배. 표준화로 균일하게 반영

(c) 텍스트에서는 문서 길이보다 단어 분포의 방향이 유사도에 중요. 코사인은 크기가 아닌 방향(각도)을 측정

6-2.

(a) 훈련 데이터를 완벽하게 암기한 과대적합(overfitting)

(b) ① max_depth 제한 ② min_samples_leaf 증가 ③ 가지치기(pruning) ④ 랜덤 포레스트로 교체

(c) 단일 트리는 분산이 매우 높습니다(데이터 변화에 민감). 랜덤 포레스트는 여러 트리를 평균해 분산을 줄입니다. 편향은 유지되지만 분산이 크게 낮아져 일반화 성능이 향상됩니다.

6-3.

항목배깅부스팅
학습 순서병렬 (독립적)순차 (이전 오차 반영)
주로 줄이는 오차분산(Variance)편향(Bias)
이상값 민감도낮음높음 (잘못 분류에 가중치)
대표 알고리즘랜덤 포레스트XGBoost, LightGBM, AdaBoost

6-4.

  • 상황 A (과대적합): learning_rate 감소, max_depth 축소, subsample 추가, n_estimators 줄이기, 정규화(L1/L2L1/L2) 추가
  • 상황 B (과소적합): n_estimators 증가, learning_rate 높이기, max_depth 증가
  • 상황 C (속도 문제): LightGBM으로 교체, n_estimators 줄이기, 특징 수 축소(PCA), 조기 종료(early stopping)

Part 7 정답#

7-1.3번 — PCA 수행 전 표준화는 필수입니다. 스케일이 큰 변수가 주성분을 지배하게 됩니다.

7-2.

(a) 유클리드 거리 계산:

포인트d(μ1=(1,1))d(\mu_1=(1,1))d(μ2=(5,4))d(\mu_2=(5,4))할당
A(1,1)025=5\sqrt{25}=5클러스터 1
B(2,1)1133.6\sqrt{13}\approx3.6클러스터 1
C(4,3)133.6\sqrt{13}\approx3.621.4\sqrt{2}\approx1.4클러스터 2
D(5,4)25=5\sqrt{25}=50클러스터 2
E(3,2)52.2\sqrt{5}\approx2.282.8\sqrt{8}\approx2.8클러스터 1

(b) 새로운 중심: μ1=A+B+E3=(1+2+3,1+1+2)3=(2,43)(2,1.33)\mu_1 = \frac{A+B+E}{3} = \frac{(1+2+3, 1+1+2)}{3} = (2, \tfrac{4}{3}) \approx (2, 1.33) μ2=C+D2=(4+5,3+4)2=(4.5,3.5)\mu_2 = \frac{C+D}{2} = \frac{(4+5, 3+4)}{2} = (4.5, 3.5)


7-3.

항목K-평균계층적 클러스터링
K 사전 지정필요불필요 (사후 결정)
결과 시각화산점도덴드로그램
시간 복잡도O(nKt)O(nKt) — 빠름O(n2)O(n^2) — 느림
이상값 영향중심값 왜곡단일 연결 시 민감
결정적 결과아니오 (초기값 의존)예 (거리 기반 고정)

7-4.

(a) 나이, 연소득 — 스케일 차이로 거리 계산이 왜곡됨. 표준화 또는 MinMaxScaling 적용

(b) ① 원-핫 인코딩 후 표준화 ② 고워 거리(Gower Distance)로 통합 처리 — 수치/범주/이진 혼합 데이터를 [0,1] 유사도로 통합

(c) 고워 거리 기반 계층적 클러스터링 또는 GMM 권장. K-평균은 유클리드 거리만 지원해 범주형 처리가 불편합니다. 고객 수가 많지 않다면 계층적 클러스터링으로 덴드로그램을 보며 K를 결정하는 것이 직관적입니다.


채점 기준#

파트총 점수내용
Part 1 (1장)20점기술통계 개념 및 계산
Part 2 (2장)20점표본분포, 부트스트랩, 확률분포
Part 3 (3장)15점가설검정, p-값, A/B 검정
Part 4 (4장)20점회귀 계수 해석, 잔차 진단
Part 5 (5장)20점분류, 혼동행렬, 불균형 데이터
Part 6 (6장)15점KNN, 트리, 앙상블
Part 7 (7장)15점PCA, 클러스터링
합계125점

90점 이상: 실무 투입 가능 수준 — 데이터 사이언티스트 기초 완성

70~89점: 개념 이해 양호 — 취약 파트 집중 복습 필요

70점 미만: 해당 장을 다시 정독 후 재도전 권장

관련 포스트