ELBO에서 PAC까지 — 베이지안 ML의 통일 언어

ELBO 유도부터 Reparameterization, MLE 점근 정규성, Dropout의 베이지안 해석, Concentration Inequality까지 — 현대 확률적 ML을 관통하는 하나의 프레임워크를 추적한다.

현대 ML의 목적함수들은 제각각 다른 동기에서 나온 것처럼 보인다. VAE의 ELBO, 신경망의 cross-entropy, Dropout의 regularization, 그리고 일반화 이론의 확률 부등식. 하지만 이 챕터들을 나란히 놓고 보면 하나의 질문이 반복된다 — “intractable한 것을 어떻게 tractable하게 다루는가?”

Evidence의 하한 — 왜 ELBO인가

데이터의 marginal log-likelihood $\log p_\theta(x) = \log \int p_\theta(x, z)\, dz$ 는 latent variable $z$ 의 적분 때문에 계산 불가다. 이를 우회하는 핵심 항등식이 ELBO의 출발점이다.

임의의 variational distribution $q_\phi(z|x)$ 를 도입하면:

\log p_\theta(x) = \mathcal{L}(\theta, \phi; x) + \text{KL}(q_\phi(z|x) \,\|\, p_\theta(z|x))

KL은 항상 0 이상이므로 $\mathcal{L} \leq \log p_\theta(x)$ 가 성립한다 — 이것이 “Lower Bound”의 이유다. ELBO를 직접 정의하면:

\mathcal{L}(\theta, \phi; x) = \mathbb{E}_{q_\phi(z|x)}\!\left[\log \frac{p_\theta(x,z)}{q_\phi(z|x)}\right]

이를 분해하면 두 역할이 드러난다.

\mathcal{L} = \underbrace{\mathbb{E}_{q}[\log p_\theta(x|z)]}_{\text{reconstruction}} - \underbrace{\text{KL}(q_\phi(z|x) \,\|\, p(z))}_{\text{KL regularization}}

Reconstruction term은 encoder-decoder가 입력을 얼마나 잘 복원하는지, KL term은 posterior가 prior에 얼마나 가까운지를 측정한다. ELBO 최대화 = 데이터 fitting + posterior 정규화의 균형이다.

✎ 등호 조건

$\mathcal{L} = \log p_\theta(x)$ 이 되는 것은 $q_\phi(z|x) = p_\theta(z|x)$ a.s.일 때뿐이다. Variational family가 진짜 사후분포를 포함하지 않으면 항상 variational gap이 남는다.

Backprop을 가능하게 하는 트릭

VAE를 학습하려면 $\nabla_\phi \mathbb{E}_{q_\phi}[f(z)]$ 를 계산해야 한다. 문제는 기댓값의 분포 자체가 $\phi$ 에 의존한다는 것이다 — $\nabla_\phi$ 가 $\mathbb{E}$ 안으로 들어가지 못한다.

Reparameterization trick은 이 문제를 분포의 책임 분리로 해결한다. $z = g_\phi(\epsilon)$ 으로 쓰고 $\epsilon$ 을 $\phi$ 에 무관한 분포에서 sampling하면:

\mathbb{E}_{q_\phi}[f(z)] = \mathbb{E}_{p_\epsilon}[f(g_\phi(\epsilon))]

이제 기댓값의 분포가 $\phi$ 에 무관하므로 DCT(지배 수렴 정리) 하에 미분과 적분을 교환할 수 있다.

\nabla_\phi \mathbb{E}_{q_\phi}[f(z)] = \mathbb{E}_{p_\epsilon}[\nabla_\phi f(g_\phi(\epsilon))]

Gaussian의 경우 $z = \mu_\phi + \sigma_\phi \cdot \epsilon$ , $\epsilon \sim \mathcal{N}(0, 1)$ 으로 구현된다. 비교 대상인 REINFORCE 추정량 $\mathbb{E}_q[f(z)\nabla_\phi \log q_\phi(z)]$ 도 수학적으로 동치이지만, 분산이 약 10배 크다. Reparameterization이 VAE 학습을 실용적으로 만든 이유다.

⚠ 이산 분포의 한계

Reparameterization은 미분 가능한 $g_\phi$ 를 요구한다. Bernoulli, Categorical 같은 이산 분포에는 직접 적용이 불가능하다. 이를 우회하는 것이 Gumbel-softmax: $z_i = \text{softmax}((\log \pi_i + g_i)/\tau)$ , $g_i \sim \text{Gumbel}(0,1)$ . $\tau \to 0$ 이면 이산에 수렴하고, $\tau > 0$ 이면 미분 가능한 연속 완화를 제공한다.

MLE는 왜 작동하는가 — Fisher 정보와 점근 정규성

신경망 학습의 cross-entropy loss는 본질적으로 MLE다. $\hat\theta_n = \arg\max \frac{1}{n}\sum \log p(X_i; \theta)$ . 왜 이것이 올바른 추정량인가?

일관성(consistency)의 근거는 KL의 비음수성이다. WLLN에 의해 경험 log-likelihood가 $\mathbb{E}[\log p(X;\theta)]$ 로 수렴하고, 이 극한은 $-\text{KL}(p_{\theta_0} \| p_\theta) - H(p_{\theta_0})$ 이므로 $\theta_0$ 에서 최대가 된다. 따라서 $\hat\theta_n \xrightarrow{p} \theta_0$ .

정리 1 · MLE 점근 정규성

정칙성 조건 하에서 $\sqrt{n}(\hat\theta_n - \theta_0) \xrightarrow{d} \mathcal{N}(0,\, I(\theta_0)^{-1})$

▷ 증명

1차 조건 $\frac{1}{n}\sum \dot\ell(X_i;\hat\theta_n) = 0$ 을 $\theta_0$ 주변으로 Taylor 전개하면:

$\sqrt{n}(\hat\theta_n - \theta_0) \approx -\!\left(\frac{1}{n}\sum \ddot\ell_i\right)^{-1} \cdot \frac{1}{\sqrt{n}}\sum \dot\ell(X_i;\theta_0)$

LLN: $\frac{1}{n}\sum \ddot\ell \xrightarrow{p} -I(\theta_0)$ . Score의 평균이 0임을 이용한 CLT: $\frac{1}{\sqrt{n}}\sum \dot\ell \xrightarrow{d} \mathcal{N}(0, I(\theta_0))$ . Slutsky 정리로 결합하면 $\mathcal{N}(0, I(\theta_0)^{-1})$ . $\square$

∎

Fisher 정보 $I(\theta) = \mathbb{E}[\dot\ell \dot\ell^\top] = -\mathbb{E}[\ddot\ell]$ 는 “ $\theta$ 에 대해 데이터가 담고 있는 정보의 양”이다. Cramér-Rao 하한 $\text{Var}(T_n) \geq I^{-1}/n$ 에 의해 MLE는 점근적으로 효율적인 추정량이다.

Dropout = Approximate Bayesian Inference

Dropout이 단순한 regularization trick이 아니라는 것이 Gal & Ghahramani(2016)의 통찰이다. Weight matrix $W_i = M_i \cdot \text{diag}(z_i)$ , $z_{i,j} \sim \text{Bern}(1-p)$ 로 parameterize된 variational family를 생각하면, Gaussian prior $p(W) = \mathcal{N}(0, l^2 I)$ 하에서 KL 항이 L2 weight decay에 비례한다. 결론적으로:

Dropout + L2 regularization의 SGD = ELBO 최적화

이 매핑이 성립하면 test time에도 dropout을 켠 채 $T$ 번 forward pass를 하는 MC Dropout은 사후분포 $q_\phi(W)$ 에서의 sampling이 된다.

$\hat{p}(y|x,D) = \frac{1}{T}\sum_{t=1}^T p(y|x,W_t), \quad W_t \sim q_\phi$

예측 분산은 Eve’s Law로 분해된다.

$\text{Var}[y|x,D] = \underbrace{\mathbb{E}_q[\text{Var}(y|x,W)]}_{\text{aleatoric}} + \underbrace{\text{Var}_q[\mathbb{E}(y|x,W)]}_{\text{epistemic}}$

Aleatoric(우연적) 불확실성은 데이터 자체의 noise로 더 많은 데이터를 모아도 줄지 않는다. Epistemic(인식론적) 불확실성은 model weight의 불확실성으로 데이터가 추가되면 감소한다. 이 구분이 의료 진단, 자율주행 등 고위험 도메인에서 실용적 의미를 갖는다.

일반화를 수학적으로 보장하기 — Concentration과 PAC

ELBO와 MLE가 “학습”을 다룬다면, Concentration inequality는 “왜 학습이 일반화되는가”를 다룬다. Hoeffding 부등식은 그 핵심이다.

\mathbb{P}\!\left(|\bar{X}_n - \mu| \geq \varepsilon\right) \leq 2\exp\!\left(-\frac{2n\varepsilon^2}{(b-a)^2}\right)

이 지수적 감소가 Chebyshev의 $O(1/n\varepsilon^2)$ 와 다른 점이다. Finite hypothesis class $\mathcal{H}$ 에 대해 union bound를 적용하면:

\mathbb{P}\!\left(\sup_{f \in \mathcal{H}} |\hat{L}_n(f) - L(f)| > \varepsilon\right) \leq 2|\mathcal{H}| \cdot e^{-2n\varepsilon^2}

이로부터 ERM(empirical risk minimizer) $\hat{f}$ 의 PAC bound가 나온다: $1 - \delta$ 확률로

L(\hat{f}) \leq L^* + 2\sqrt{\frac{\log(2|\mathcal{H}|/\delta)}{2n}}

필요 sample 수는 $n \geq \log(2|\mathcal{H}|/\delta) / (2\varepsilon^2)$ 이다. 무한 hypothesis class에서는 VC dimension $d_\text{VC}$ 가 $|\mathcal{H}|$ 자리를 대신한다.

✎ 트레이드오프 — 심층 신경망의 generalization mystery

VC bound는 NN에 직접 적용하면 vacuous하다 (파라미터 수 $\gg n$ ). 하지만 NN은 실제로 잘 일반화한다. PAC-Bayes는 단일 가설 대신 분포 $Q$ 위에서 $\text{KL}(Q \| P)$ 를 capacity measure로 사용해 tighter bound를 제공한다. SGD의 implicit bias, flat minima, norm-based bounds 등과 함께 이 간극을 설명하려는 연구가 활발하다.

정리

이 다섯 챕터는 서로 다른 문제를 다루지만 같은 구조를 반복한다.

ELBO는 intractable $p(x)$ 를 tractable lower bound로 대체한다.
Reparameterization은 stochastic node를 통한 backprop을