← all posts
AI 2026.05.03 · 11 min read Advanced

Score 함수에서 SDE까지 — Diffusion의 통합 이론

Langevin MCMC의 mode mixing 한계부터 VP/VE-SDE의 연속 시간 통합까지, score 기반 생성 모델의 설계 철학을 추적한다.


데이터 분포 p(x)p(x)를 직접 모델링하기는 어렵다. 하지만 그 로그 확률의 그래디언트, 즉 score s(x)=xlogp(x)s(x) = \nabla_x \log p(x)는 “어느 방향으로 움직이면 확률이 높아지는가”를 직접 가리킨다. DDPM부터 NCSN, Score-SDE까지 — 이 챕터들은 모두 하나의 질문을 다른 각도에서 추적한다. score를 어떻게 배우고, 어떻게 쓸 것인가?

Score와 Langevin: 아이디어의 기원

Score 함수의 물리적 직관은 간단하다. 에너지 U(x)=logp(x)U(x) = -\log p(x)를 정의하면, score는 에너지 내리막 방향 U(x)-\nabla U(x)다. Langevin 알고리즘은 이 방향으로 조금씩 이동하면서 열 요동(thermal noise)을 섞는다.

xk+1=xk+ηs(xk)+2ηϵk,ϵkN(0,I)x_{k+1} = x_k + \eta \, s(x_k) + \sqrt{2\eta} \, \epsilon_k, \quad \epsilon_k \sim \mathcal{N}(0, I)
정리 1 · Langevin의 정상 분포 (Roberts & Tweedie 1996)

η0\eta \to 0 극한에서 위 반복의 정상 분포는 p(x)p(x)로 수렴한다.

▷ 증명

연속시간 극한 dx=s(x)dt+2dWdx = s(x)\,dt + \sqrt{2}\,dW의 Fokker-Planck 방정식은

0=(πs+π)0 = \nabla \cdot (\pi s + \nabla \pi)

를 정상 조건으로 요구한다. logπ=s\nabla \log \pi = s이면 이 식이 자동으로 0이 되므로 π=p\pi = p다. \square

문제는 고차원이다. 두 mode가 에너지 장벽 ΔE\Delta E로 분리되어 있으면 mode 전환 빈도는 eΔE/η\propto e^{-\Delta E/\eta}로 지수적으로 억제된다. 단일 noise 스케일로는 전역 탐색과 국소 정밀도를 동시에 달성할 수 없다.

Denoising Score Matching: 정규화 상수 없이 배우기

Score를 직접 추정하려면 정규화 상수 Z=eE(x)dxZ = \int e^{-E(x)} dx가 필요하다. 이것이 계산 불가능하므로, Vincent (2011)은 다른 방법을 제안했다. 깨끗한 xx에 Gaussian 노이즈를 더해 x~=x+σϵ\tilde{x} = x + \sigma\epsilon을 만들면, 조건부 score는 닫힌 형태로 계산된다.

보조정리 2 · Gaussian 조건부 Score

q(x~x)=N(x~x,σ2I)q(\tilde{x} \mid x) = \mathcal{N}(\tilde{x} \mid x, \sigma^2 I)일 때,

x~logq(x~x)=x~xσ2=ϵσ\nabla_{\tilde{x}} \log q(\tilde{x} \mid x) = -\frac{\tilde{x} - x}{\sigma^2} = -\frac{\epsilon}{\sigma}

그리고 핵심 항등식이 있다.

정리 3 · Vincent의 Score Matching 항등식
E[sθ(x~)logq(x~x)2]=E[sθ(x~)logqσ(x~)2]+C\mathbb{E}\bigl[\|s_\theta(\tilde{x}) - \nabla\log q(\tilde{x}|x)\|^2\bigr] = \mathbb{E}\bigl[\|s_\theta(\tilde{x}) - \nabla\log q_\sigma(\tilde{x})\|^2\bigr] + C

(CCθ\theta에 무관한 상수)

즉, 조건부 score를 학습 목표로 삼아도 진짜 데이터 분포의 score로 수렴한다. DSM 손실은 결국

LDSM(θ)=Ex,ϵ[sθ(x+σϵ)+ϵσ2]L_{\text{DSM}}(\theta) = \mathbb{E}_{x, \epsilon}\left[\left\| s_\theta(x + \sigma\epsilon) + \frac{\epsilon}{\sigma} \right\|^2\right]

이고, DDPM의 noise prediction 손실 E[ϵθ(xt,t)ϵ2]\mathbb{E}[\|\epsilon_\theta(x_t, t) - \epsilon\|^2]과 정확히 동등하다(sθ=ϵθ/σts_\theta = -\epsilon_\theta / \sigma_t 관계를 대입하면 상수 배 차이만 남는다).

NCSN: Multi-scale로 Mode Mixing 완화

단일 σ\sigma의 DSM은 저확률 영역(tail)에서 훈련 데이터가 희박해 score 추정이 부정확하다. Song & Ermon (2019)의 NCSN은 σ1>σ2>>σL\sigma_1 > \sigma_2 > \cdots > \sigma_L의 noise schedule을 도입하고, 조건부 신경망 sθ(x,σ)s_\theta(x, \sigma)를 동시에 훈련한다.

LNCSN(θ)=i=1Lσi2Ex,ϵ[sθ(x+σiϵ,σi)+ϵσi2]L_{\text{NCSN}}(\theta) = \sum_{i=1}^{L} \sigma_i^2 \, \mathbb{E}_{x, \epsilon}\left[\left\| s_\theta(x + \sigma_i\epsilon,\, \sigma_i) + \frac{\epsilon}{\sigma_i} \right\|^2\right]

가중치 λi=σi2\lambda_i = \sigma_i^2는 고차원에서 기울기 크기를 정규화한다. 생성 시에는 annealed Langevin sampling — 큰 σ\sigma에서 시작해 점진적으로 줄이며 Langevin을 반복하는 전략 — 을 사용한다. 큰 σ\sigma에서 전역 mode를 포착하고, 작은 σ\sigma에서 세부 구조를 채우는 방식이다.

트레이드오프

σ\sigma 스케일이 많을수록 score 추정이 촘촘해지지만 훈련 비용이 선형 증가한다. 각 σ\sigma 단계에서 Langevin 스텝 수도 수렴과 비용 사이의 균형점이다 — 너무 적으면 정상 분포에 도달하기 전에 다음 스케일로 넘어가고, 너무 많으면 계산 비용과 누적 오차가 커진다.

Score-SDE: 이산 알고리즘들의 통합

이산 step들(DDPM의 TT개 step, NCSN의 LLσ\sigma 스케일)을 연속시간 SDE로 보면, 모든 이산 알고리즘이 특수한 이산화로 통합된다. Song (2021)의 프레임워크는 forward SDE를 다음과 같이 정의한다.

dx=f(x,t)dt+g(t)dWtdx = f(x,t)\,dt + g(t)\,dW_t

그리고 Anderson (1982)의 역방향 SDE를 사용해 생성한다.

dx=[f(x,t)g(t)2xlogpt(x)]dt+g(t)dWˉtdx = \bigl[f(x,t) - g(t)^2 \nabla_x \log p_t(x)\bigr]dt + g(t)\,d\bar{W}_t

여기서 xlogpt(x)sθ(x,t)\nabla_x \log p_t(x) \approx s_\theta(x, t)가 학습한 score다. 같은 marginal 경로 {pt}\{p_t\}를 따르는 probability flow ODE도 존재한다.

dxdt=f(x,t)12g(t)2xlogpt(x)\frac{dx}{dt} = f(x,t) - \frac{1}{2}g(t)^2 \nabla_x \log p_t(x)

ODE는 확정적(deterministic)이므로 likelihood 계산이 가능하고 더 빠른 샘플링이 허용된다. DDIM은 이 ODE sampler의 특수한 이산화다.

VP-SDE와 VE-SDE: 두 가지 철학

연속 SDE 프레임워크 안에서 두 가지 구체적인 설계 철학이 등장한다.

VP-SDE (Variance-Preserving, DDPM의 연속 극한):

dx=12β(t)xdt+β(t)dWtdx = -\frac{1}{2}\beta(t)\,x\,dt + \sqrt{\beta(t)}\,dW_t

적분하면 xt=αˉ(t)x0+1αˉ(t)ϵx_t = \sqrt{\bar{\alpha}(t)}\,x_0 + \sqrt{1-\bar{\alpha}(t)}\,\epsilon이 되어 분산이 11 근방에 유지된다.

VE-SDE (Variance-Exploding, NCSN의 연속 극한):

dx=dσ2(t)dtdWtdx = \sqrt{\frac{d\sigma^2(t)}{dt}}\,dW_t

drift가 없어 xt=x0+σ(t)ϵx_t = x_0 + \sigma(t)\epsilon이고 분산이 x02+σ(t)2\|x_0\|^2 + \sigma(t)^2로 성장한다.

두 접근의 핵심 차이는 다음과 같다.

VP-SDEVE-SDE
분산 안정성유지 (~1)폭발적 증가
Likelihood 계산안정적수치 불안정 가능
저확률 영역 탐색상대적으로 약함Multi-scale 전략으로 강함
대응 알고리즘DDPMNCSN

정리

  • Score s(x)=xlogp(x)s(x) = \nabla_x \log p(x)는 정규화 상수 없이 “고확률 방향”을 가리킨다.
  • DSM은 조건부 score ϵ/σ-\epsilon/\sigma를 학습 목표로 삼아 intractable한 정규화를 우회한다. 이것이 DDPM noise prediction과 수학적으로 동등하다.
  • NCSN은 multi-scale σ\sigma와 annealed Langevin으로 mode mixing 문제를 완화한다.
  • Score-SDE는 DDPM, NCSN, DDIM을 dx=fdt+gdWdx = f\,dt + g\,dW의 특수한 이산화로 통합하고, probability flow ODE로 deterministic 샘플링과 likelihood 계산을 가능하게 한다.

score라는 단순한 아이디어 하나가, 노이즈 스케줄 선택과 SDE 설계 전체를 관통한다.