devlog.

미분의 개념과 주요 미분 공식: 머신러닝 미적분 1장

·12분 읽기·

머신러닝 모델을 학습시킨다는 것은 결국 손실 함수(loss function)를 최소화하는 과정입니다. 이 최소화의 수학적 도구가 바로 미분(Derivative) 입니다. 이번 글에서는 미분의 직관적 의미부터 시작해 주요 함수들의 미분 공식과 핵심 규칙들을 정리합니다.

이 글은 DeepLearning.AI의 Mathematics for Machine Learning and Data Science — Calculus 1주차 내용을 기반으로 정리했습니다.

이번 글에서 배우는 것#

  • 도함수(Derivative) 의 직관적 의미 — 순간 변화율과 접선의 기울기
  • 기울기, 최댓값, 최솟값의 관계
  • 상수·선형·다항·지수·로그·삼각 함수의 미분
  • 미분 불가능(Non-differentiable) 함수의 조건
  • 미분의 4가지 핵심 성질: 스칼라 곱, 합, 곱, 연쇄 법칙

왜 머신러닝에서 미분이 필요한가#

머신러닝 모델 학습은 최적화(Optimization) 입니다.

  • 회귀(Regression): 데이터 포인트를 가장 잘 설명하는 직선 찾기
  • 분류(Classification): 데이터를 가장 잘 나누는 경계선 찾기

두 경우 모두 처음에는 임의의 선에서 시작해, 점차 가장 적합한 위치로 조정(tweak) 해나갑니다. 이 과정을 최적화라 부르고, 어느 방향으로 얼마나 조정할지를 알려주는 것이 바로 미분입니다.


미분이란 무엇인가 — 순간 변화율#

자동차의 속도계를 생각해봅시다. 전체 여정의 평균 속도는 쉽게 구할 수 있습니다.

평균 속도=Δ거리Δ시간=y(t2)y(t1)t2t1\text{평균 속도} = \frac{\Delta \text{거리}}{\Delta \text{시간}} = \frac{y(t_2) - y(t_1)}{t_2 - t_1}

하지만 특정 순간의 속도는 어떻게 구할까요? 시간 간격을 점점 줄여나가면 됩니다.

순간 속도=limΔt0ΔyΔt\text{순간 속도} = \lim_{\Delta t \to 0} \frac{\Delta y}{\Delta t}

이것이 바로 도함수(Derivative) — 함수의 순간 변화율입니다.

예시: t=1015t = 10 \sim 15초 사이 평균 속도

v=y(15)y(10)1510=2021225=16 m/sv = \frac{y(15) - y(10)}{15 - 10} = \frac{202 - 122}{5} = 16 \text{ m/s}

t=1213t = 12 \sim 13초 사이로 좁히면 t=12.5t = 12.5초의 근사 순간 속도를 구할 수 있습니다.

핵심 비유: 거리 = 함수 f(x)f(x), 속도 = 도함수 f(x)f'(x)


접선과 미분#

순간 변화율 은 그래프 위 한 점에서의 접선(tangent line)의 기울기와 같습니다.

접선이란 곡선 위의 한 점에 닿되, 그 점에서 곡선을 가로지르지 않는 직선입니다.

f(x)=limΔx0f(x+Δx)f(x)Δxf'(x) = \lim_{\Delta x \to 0} \frac{f(x + \Delta x) - f(x)}{\Delta x}

도함수=접선의 기울기\boxed{\text{도함수} = \text{접선의 기울기}}


기울기, 최댓값, 최솟값#

함수의 최대·최소는 어디서 일어날까요?

핵심 원리: 함수의 최댓값 또는 최솟값은 도함수가 0인 점(기울기 = 0인 점)에서 발생합니다.

f(x)=0최댓값 또는 최솟값 후보f'(x) = 0 \Rightarrow \text{최댓값 또는 최솟값 후보}

도함수 부호의미
f(x)>0f'(x) > 0함수가 증가
f(x)=0f'(x) = 0기울기 0 — 극값(최대/최소) 후보
f(x)<0f'(x) < 0함수가 감소

실무에서는? 손실 함수의 미분이 0이 되는 지점이 모델의 최적 파라미터입니다. 경사 하강법(Gradient Descent)은 이 지점을 향해 조금씩 이동합니다.


미분 표기법#

도함수를 표기하는 방법은 여러 가지입니다.

표기의미
f(x)f'(x)라그랑주 표기법
dfdx\dfrac{df}{dx}라이프니츠 표기법
f˙\dot{f}뉴턴 표기법 (주로 시간 미분)

주요 함수의 미분#

상수 함수#

f(x)=cf(x)=0f(x) = c \Rightarrow f'(x) = 0

상수는 변하지 않으므로 변화율이 0입니다.

선형 함수#

f(x)=ax+bf(x)=af(x) = ax + b \Rightarrow f'(x) = a

기울기 aa 가 일정하므로 모든 점에서 도함수 = aa. 상수항 bb 는 변화율에 영향 없음.

이차 함수 (Quadratic)#

f(x)=x2f(x)=2xf(x) = x^2 \Rightarrow f'(x) = 2x

직관적 유도:

(x+Δx)2x2Δx=2xΔx+(Δx)2Δx=2x+ΔxΔx02x\frac{(x + \Delta x)^2 - x^2}{\Delta x} = \frac{2x\Delta x + (\Delta x)^2}{\Delta x} = 2x + \Delta x \xrightarrow{\Delta x \to 0} 2x

고차 다항 함수 (Power Rule)#

f(x)=xnf(x)=nxn1f(x) = x^n \Rightarrow f'(x) = nx^{n-1}

규칙: 지수를 계수로 내리고, 지수를 1 줄입니다.

함수도함수
x3x^33x23x^2
x4x^44x34x^3
x1x^{-1}x2-x^{-2}
x=x1/2\sqrt{x} = x^{1/2}12x1/2\dfrac{1}{2}x^{-1/2}

역함수의 미분#

역함수는 원래 함수가 입력에 한 일을 되돌리는 함수입니다.

g=f1g(x)=1f(g(x))g = f^{-1} \Rightarrow g'(x) = \frac{1}{f'(g(x))}

역함수의 도함수 = 원함수 도함수의 역수


삼각 함수의 미분#

ddxsin(x)=cos(x)\frac{d}{dx}\sin(x) = \cos(x)

ddxcos(x)=sin(x)\frac{d}{dx}\cos(x) = -\sin(x)

ddxtan(x)=sec2(x)\frac{d}{dx}\tan(x) = \sec^2(x)

직관: Δx\Delta x 를 극한으로 줄이면 삼각형의 빗변이 Δx\Delta x 에 수렴하고, 이를 정리하면 삼각함수 미분 공식이 도출됩니다.


자연상수 ee 와 지수 함수의 미분#

자연상수 ee 란?#

은행 이자를 예시로:

e=limn(1+1n)n2.71828e = \lim_{n \to \infty} \left(1 + \frac{1}{n}\right)^n \approx 2.71828\ldots

nn 이 커질수록 결과값이 ee 에 수렴합니다.

exe^x 의 미분#

ddxex=ex\frac{d}{dx}e^x = e^x

exe^x자기 자신이 도함수인 유일한 함수입니다. 미분해도 변하지 않습니다.

실무에서는? 시그모이드 함수 σ(x)=11+ex\sigma(x) = \frac{1}{1+e^{-x}} 의 미분이 딥러닝 역전파(backpropagation)의 핵심입니다.


로그 함수의 미분#

ddxln(x)=1x\frac{d}{dx}\ln(x) = \frac{1}{x}

관계: ln(x)\ln(x)exe^x 의 역함수이므로, 역함수 미분 법칙에 의해 1x\frac{1}{x} 가 됩니다.


미분이 존재하지 않는 경우#

모든 함수가 모든 점에서 미분 가능한 것은 아닙니다.

경우예시이유
꺾임점 (Cusp)x\|x\|x=0x=0좌미분 ≠ 우미분
불연속점 (Jump)계단 함수해당 점에서 함수가 정의 불연속
수직 접선x1/3x^{1/3}x=0x=0기울기 = \infty (0으로 나누기)

이러한 함수들을 미분 불가능 함수(Non-differentiable function) 라고 합니다.

실무에서는? ReLU 활성화 함수 max(0,x)\max(0, x)x=0x=0 에서 미분 불가능하지만, 실제로는 0 또는 1 중 하나를 사용하는 근사(subgradient) 방식으로 학습합니다.


미분의 4가지 핵심 성질#

1. 스칼라 곱 법칙 (Scalar Multiplication Rule)#

ddx[cf(x)]=cf(x)\frac{d}{dx}[c \cdot f(x)] = c \cdot f'(x)

함수에 상수를 곱하면, 도함수도 그 상수를 곱한 값이 됩니다.

ddx[5x3]=53x2=15x2\frac{d}{dx}[5x^3] = 5 \cdot 3x^2 = 15x^2

2. 합의 법칙 (Sum Rule)#

ddx[f(x)+g(x)]=f(x)+g(x)\frac{d}{dx}[f(x) + g(x)] = f'(x) + g'(x)

두 함수의 합의 도함수 = 각 도함수의 합.

f(x)=2x, g(x)=x2(f+g)(x)=2+2xf(x) = 2x,\ g(x) = x^2 \Rightarrow (f+g)'(x) = 2 + 2x

직관: 기차 위를 달리는 아이의 속도 = 기차 속도 + 아이 속도

3. 곱의 법칙 (Product Rule)#

ddx[f(x)g(x)]=f(x)g(x)+f(x)g(x)\frac{d}{dx}[f(x) \cdot g(x)] = f'(x)g(x) + f(x)g'(x)

예시: f(x)=xexf(x) = xe^x

f(x)=(x)ex+x(ex)=ex+xex=ex(1+x)f'(x) = (x)' \cdot e^x + x \cdot (e^x)' = e^x + xe^x = e^x(1+x)

4. 연쇄 법칙 (Chain Rule)#

합성 함수의 미분 법칙입니다.

ddx[f(g(x))]=f(g(x))g(x)\frac{d}{dx}[f(g(x))] = f'(g(x)) \cdot g'(x)

직관: 높이 → 온도 → 시간 의 변화율을 알 때:

d온도d시간=d온도d높이×d높이d시간\frac{d\text{온도}}{d\text{시간}} = \frac{d\text{온도}}{d\text{높이}} \times \frac{d\text{높이}}{d\text{시간}}

예시: f(x)=e2xf(x) = e^{2x}

g(x)=2x,f(g)=egg(x) = 2x,\quad f(g) = e^g

f(x)=e2x(2x)=2e2xf'(x) = e^{2x} \cdot (2x)' = 2e^{2x}

실무에서는? 딥러닝의 역전파(Backpropagation) 는 연쇄 법칙을 반복 적용해 각 레이어의 기울기를 계산하는 알고리즘입니다.


전체 미분 공식 요약#

함수도함수
cc (상수)00
xnx^nnxn1nx^{n-1}
exe^xexe^x
ln(x)\ln(x)1x\dfrac{1}{x}
sin(x)\sin(x)cos(x)\cos(x)
cos(x)\cos(x)sin(x)-\sin(x)
tan(x)\tan(x)sec2(x)\sec^2(x)
법칙공식
스칼라 곱(cf)=cf(cf)' = cf'
합의 법칙(f+g)=f+g(f+g)' = f' + g'
곱의 법칙(fg)=fg+fg(fg)' = f'g + fg'
연쇄 법칙(fg)=f(g)g(f \circ g)' = f'(g) \cdot g'


퀴즈#

Q1. 다음 함수를 미분하세요.

f(x)=3x42x2+5x7f(x) = 3x^4 - 2x^2 + 5x - 7

정답 보기

합의 법칙 + 스칼라 곱 + 거듭제곱 법칙 적용:

f(x)=12x34x+5f'(x) = 12x^3 - 4x + 5


Q2. f(x)=x2exf(x) = x^2 e^x 를 미분하세요.

정답 보기

곱의 법칙: (fg)=fg+fg(fg)' = f'g + fg'

f(x)=2xex+x2ex=ex(2x+x2)=xex(x+2)f'(x) = 2x \cdot e^x + x^2 \cdot e^x = e^x(2x + x^2) = xe^x(x+2)


Q3. f(x)=ln(x2+1)f(x) = \ln(x^2 + 1) 을 미분하세요.

정답 보기

연쇄 법칙: g(x)=x2+1g(x) = x^2 + 1, f(g)=ln(g)f(g) = \ln(g)

f(x)=1x2+12x=2xx2+1f'(x) = \frac{1}{x^2+1} \cdot 2x = \frac{2x}{x^2+1}


Q4. 다음 중 x=0x = 0 에서 미분 불가능한 함수는?

  1. f(x)=x2f(x) = x^2
  2. f(x)=xf(x) = |x|
  3. f(x)=exf(x) = e^x
  4. f(x)=sin(x)f(x) = \sin(x)
정답 보기

2번 f(x)=xf(x) = |x|

x=0x = 0 에서 좌미분 = 1-1, 우미분 = 11 로 서로 달라 미분이 존재하지 않습니다. (꺾임점, Cusp)


Q5. f(x)=sin(3x2)f(x) = \sin(3x^2) 을 미분하세요.

정답 보기

연쇄 법칙 2번 적용: h(x)=3x2h(x) = 3x^2, g(h)=sin(h)g(h) = \sin(h)

f(x)=cos(3x2)6x=6xcos(3x2)f'(x) = \cos(3x^2) \cdot 6x = 6x\cos(3x^2)


다음 글에서는 최적화(Optimization), 편미분(Partial Derivative), 그래디언트(Gradient) 와 경사 하강법을 다룰 예정입니다.

관련 포스트