← all posts
AI 2026.04.28 · 11 min read Advanced

ELBO에서 PAC까지 — 베이지안 ML의 통일 언어

ELBO 유도부터 Reparameterization, MLE 점근 정규성, Dropout의 베이지안 해석, Concentration Inequality까지 — 현대 확률적 ML을 관통하는 하나의 프레임워크를 추적한다.


현대 ML의 목적함수들은 제각각 다른 동기에서 나온 것처럼 보인다. VAE의 ELBO, 신경망의 cross-entropy, Dropout의 regularization, 그리고 일반화 이론의 확률 부등식. 하지만 이 챕터들을 나란히 놓고 보면 하나의 질문이 반복된다 — “intractable한 것을 어떻게 tractable하게 다루는가?”

Evidence의 하한 — 왜 ELBO인가

데이터의 marginal log-likelihood logpθ(x)=logpθ(x,z)dz\log p_\theta(x) = \log \int p_\theta(x, z)\, dz는 latent variable zz의 적분 때문에 계산 불가다. 이를 우회하는 핵심 항등식이 ELBO의 출발점이다.

임의의 variational distribution qϕ(zx)q_\phi(z|x)를 도입하면:

logpθ(x)=L(θ,ϕ;x)+KL(qϕ(zx)pθ(zx))\log p_\theta(x) = \mathcal{L}(\theta, \phi; x) + \text{KL}(q_\phi(z|x) \,\|\, p_\theta(z|x))

KL은 항상 0 이상이므로 Llogpθ(x)\mathcal{L} \leq \log p_\theta(x)가 성립한다 — 이것이 “Lower Bound”의 이유다. ELBO를 직접 정의하면:

L(θ,ϕ;x)=Eqϕ(zx) ⁣[logpθ(x,z)qϕ(zx)]\mathcal{L}(\theta, \phi; x) = \mathbb{E}_{q_\phi(z|x)}\!\left[\log \frac{p_\theta(x,z)}{q_\phi(z|x)}\right]

이를 분해하면 두 역할이 드러난다.

L=Eq[logpθ(xz)]reconstructionKL(qϕ(zx)p(z))KL regularization\mathcal{L} = \underbrace{\mathbb{E}_{q}[\log p_\theta(x|z)]}_{\text{reconstruction}} - \underbrace{\text{KL}(q_\phi(z|x) \,\|\, p(z))}_{\text{KL regularization}}

Reconstruction term은 encoder-decoder가 입력을 얼마나 잘 복원하는지, KL term은 posterior가 prior에 얼마나 가까운지를 측정한다. ELBO 최대화 = 데이터 fitting + posterior 정규화의 균형이다.

등호 조건

L=logpθ(x)\mathcal{L} = \log p_\theta(x)이 되는 것은 qϕ(zx)=pθ(zx)q_\phi(z|x) = p_\theta(z|x) a.s.일 때뿐이다. Variational family가 진짜 사후분포를 포함하지 않으면 항상 variational gap이 남는다.

Backprop을 가능하게 하는 트릭

VAE를 학습하려면 ϕEqϕ[f(z)]\nabla_\phi \mathbb{E}_{q_\phi}[f(z)]를 계산해야 한다. 문제는 기댓값의 분포 자체가 ϕ\phi에 의존한다는 것이다 — ϕ\nabla_\phiE\mathbb{E} 안으로 들어가지 못한다.

Reparameterization trick은 이 문제를 분포의 책임 분리로 해결한다. z=gϕ(ϵ)z = g_\phi(\epsilon)으로 쓰고 ϵ\epsilonϕ\phi에 무관한 분포에서 sampling하면:

Eqϕ[f(z)]=Epϵ[f(gϕ(ϵ))]\mathbb{E}_{q_\phi}[f(z)] = \mathbb{E}_{p_\epsilon}[f(g_\phi(\epsilon))]

이제 기댓값의 분포가 ϕ\phi에 무관하므로 DCT(지배 수렴 정리) 하에 미분과 적분을 교환할 수 있다.

ϕEqϕ[f(z)]=Epϵ[ϕf(gϕ(ϵ))]\nabla_\phi \mathbb{E}_{q_\phi}[f(z)] = \mathbb{E}_{p_\epsilon}[\nabla_\phi f(g_\phi(\epsilon))]

Gaussian의 경우 z=μϕ+σϕϵz = \mu_\phi + \sigma_\phi \cdot \epsilon, ϵN(0,1)\epsilon \sim \mathcal{N}(0, 1)으로 구현된다. 비교 대상인 REINFORCE 추정량 Eq[f(z)ϕlogqϕ(z)]\mathbb{E}_q[f(z)\nabla_\phi \log q_\phi(z)]도 수학적으로 동치이지만, 분산이 약 10배 크다. Reparameterization이 VAE 학습을 실용적으로 만든 이유다.

이산 분포의 한계

Reparameterization은 미분 가능한 gϕg_\phi를 요구한다. Bernoulli, Categorical 같은 이산 분포에는 직접 적용이 불가능하다. 이를 우회하는 것이 Gumbel-softmax: zi=softmax((logπi+gi)/τ)z_i = \text{softmax}((\log \pi_i + g_i)/\tau), giGumbel(0,1)g_i \sim \text{Gumbel}(0,1). τ0\tau \to 0이면 이산에 수렴하고, τ>0\tau > 0이면 미분 가능한 연속 완화를 제공한다.

MLE는 왜 작동하는가 — Fisher 정보와 점근 정규성

신경망 학습의 cross-entropy loss는 본질적으로 MLE다. θ^n=argmax1nlogp(Xi;θ)\hat\theta_n = \arg\max \frac{1}{n}\sum \log p(X_i; \theta). 왜 이것이 올바른 추정량인가?

일관성(consistency)의 근거는 KL의 비음수성이다. WLLN에 의해 경험 log-likelihood가 E[logp(X;θ)]\mathbb{E}[\log p(X;\theta)]로 수렴하고, 이 극한은 KL(pθ0pθ)H(pθ0)-\text{KL}(p_{\theta_0} \| p_\theta) - H(p_{\theta_0})이므로 θ0\theta_0에서 최대가 된다. 따라서 θ^npθ0\hat\theta_n \xrightarrow{p} \theta_0.

정리 1 · MLE 점근 정규성

정칙성 조건 하에서 n(θ^nθ0)dN(0,I(θ0)1)\sqrt{n}(\hat\theta_n - \theta_0) \xrightarrow{d} \mathcal{N}(0,\, I(\theta_0)^{-1})

▷ 증명

1차 조건 1n˙(Xi;θ^n)=0\frac{1}{n}\sum \dot\ell(X_i;\hat\theta_n) = 0θ0\theta_0 주변으로 Taylor 전개하면:

n(θ^nθ0) ⁣(1n¨i)11n˙(Xi;θ0)\sqrt{n}(\hat\theta_n - \theta_0) \approx -\!\left(\frac{1}{n}\sum \ddot\ell_i\right)^{-1} \cdot \frac{1}{\sqrt{n}}\sum \dot\ell(X_i;\theta_0)

LLN: 1n¨pI(θ0)\frac{1}{n}\sum \ddot\ell \xrightarrow{p} -I(\theta_0). Score의 평균이 0임을 이용한 CLT: 1n˙dN(0,I(θ0))\frac{1}{\sqrt{n}}\sum \dot\ell \xrightarrow{d} \mathcal{N}(0, I(\theta_0)). Slutsky 정리로 결합하면 N(0,I(θ0)1)\mathcal{N}(0, I(\theta_0)^{-1}). \square

Fisher 정보 I(θ)=E[˙˙]=E[¨]I(\theta) = \mathbb{E}[\dot\ell \dot\ell^\top] = -\mathbb{E}[\ddot\ell]는 “θ\theta에 대해 데이터가 담고 있는 정보의 양”이다. Cramér-Rao 하한 Var(Tn)I1/n\text{Var}(T_n) \geq I^{-1}/n에 의해 MLE는 점근적으로 효율적인 추정량이다.

Dropout = Approximate Bayesian Inference

Dropout이 단순한 regularization trick이 아니라는 것이 Gal & Ghahramani(2016)의 통찰이다. Weight matrix Wi=Midiag(zi)W_i = M_i \cdot \text{diag}(z_i), zi,jBern(1p)z_{i,j} \sim \text{Bern}(1-p)로 parameterize된 variational family를 생각하면, Gaussian prior p(W)=N(0,l2I)p(W) = \mathcal{N}(0, l^2 I) 하에서 KL 항이 L2 weight decay에 비례한다. 결론적으로:

Dropout + L2 regularization의 SGD = ELBO 최적화

이 매핑이 성립하면 test time에도 dropout을 켠 채 TT번 forward pass를 하는 MC Dropout은 사후분포 qϕ(W)q_\phi(W)에서의 sampling이 된다.

p^(yx,D)=1Tt=1Tp(yx,Wt),Wtqϕ\hat{p}(y|x,D) = \frac{1}{T}\sum_{t=1}^T p(y|x,W_t), \quad W_t \sim q_\phi

예측 분산은 Eve’s Law로 분해된다.

Var[yx,D]=Eq[Var(yx,W)]aleatoric+Varq[E(yx,W)]epistemic\text{Var}[y|x,D] = \underbrace{\mathbb{E}_q[\text{Var}(y|x,W)]}_{\text{aleatoric}} + \underbrace{\text{Var}_q[\mathbb{E}(y|x,W)]}_{\text{epistemic}}

Aleatoric(우연적) 불확실성은 데이터 자체의 noise로 더 많은 데이터를 모아도 줄지 않는다. Epistemic(인식론적) 불확실성은 model weight의 불확실성으로 데이터가 추가되면 감소한다. 이 구분이 의료 진단, 자율주행 등 고위험 도메인에서 실용적 의미를 갖는다.

일반화를 수학적으로 보장하기 — Concentration과 PAC

ELBO와 MLE가 “학습”을 다룬다면, Concentration inequality는 “왜 학습이 일반화되는가”를 다룬다. Hoeffding 부등식은 그 핵심이다.

P ⁣(Xˉnμε)2exp ⁣(2nε2(ba)2)\mathbb{P}\!\left(|\bar{X}_n - \mu| \geq \varepsilon\right) \leq 2\exp\!\left(-\frac{2n\varepsilon^2}{(b-a)^2}\right)

이 지수적 감소가 Chebyshev의 O(1/nε2)O(1/n\varepsilon^2)와 다른 점이다. Finite hypothesis class H\mathcal{H}에 대해 union bound를 적용하면:

P ⁣(supfHL^n(f)L(f)>ε)2He2nε2\mathbb{P}\!\left(\sup_{f \in \mathcal{H}} |\hat{L}_n(f) - L(f)| > \varepsilon\right) \leq 2|\mathcal{H}| \cdot e^{-2n\varepsilon^2}

이로부터 ERM(empirical risk minimizer) f^\hat{f}의 PAC bound가 나온다: 1δ1 - \delta 확률로

L(f^)L+2log(2H/δ)2nL(\hat{f}) \leq L^* + 2\sqrt{\frac{\log(2|\mathcal{H}|/\delta)}{2n}}

필요 sample 수는 nlog(2H/δ)/(2ε2)n \geq \log(2|\mathcal{H}|/\delta) / (2\varepsilon^2)이다. 무한 hypothesis class에서는 VC dimension dVCd_\text{VC}H|\mathcal{H}| 자리를 대신한다.

트레이드오프 — 심층 신경망의 generalization mystery

VC bound는 NN에 직접 적용하면 vacuous하다 (파라미터 수 n\gg n). 하지만 NN은 실제로 잘 일반화한다. PAC-Bayes는 단일 가설 대신 분포 QQ 위에서 KL(QP)\text{KL}(Q \| P)를 capacity measure로 사용해 tighter bound를 제공한다. SGD의 implicit bias, flat minima, norm-based bounds 등과 함께 이 간극을 설명하려는 연구가 활발하다.

정리

이 다섯 챕터는 서로 다른 문제를 다루지만 같은 구조를 반복한다.

  • ELBO는 intractable p(x)p(x)를 tractable lower bound로 대체한다.
  • Reparameterization은 stochastic node를 통한 backprop을