현대 ML의 목적함수들은 제각각 다른 동기에서 나온 것처럼 보인다. VAE의 ELBO, 신경망의 cross-entropy, Dropout의 regularization, 그리고 일반화 이론의 확률 부등식. 하지만 이 챕터들을 나란히 놓고 보면 하나의 질문이 반복된다 — “intractable한 것을 어떻게 tractable하게 다루는가?”
Evidence의 하한 — 왜 ELBO인가
데이터의 marginal log-likelihood logpθ(x)=log∫pθ(x,z)dz는 latent variable z의 적분 때문에 계산 불가다. 이를 우회하는 핵심 항등식이 ELBO의 출발점이다.
임의의 variational distribution qϕ(z∣x)를 도입하면:
logpθ(x)=L(θ,ϕ;x)+KL(qϕ(z∣x)∥pθ(z∣x))
KL은 항상 0 이상이므로 L≤logpθ(x)가 성립한다 — 이것이 “Lower Bound”의 이유다. ELBO를 직접 정의하면:
Reconstruction term은 encoder-decoder가 입력을 얼마나 잘 복원하는지, KL term은 posterior가 prior에 얼마나 가까운지를 측정한다. ELBO 최대화 = 데이터 fitting + posterior 정규화의 균형이다.
✎ 등호 조건
L=logpθ(x)이 되는 것은 qϕ(z∣x)=pθ(z∣x) a.s.일 때뿐이다. Variational family가 진짜 사후분포를 포함하지 않으면 항상 variational gap이 남는다.
Backprop을 가능하게 하는 트릭
VAE를 학습하려면 ∇ϕEqϕ[f(z)]를 계산해야 한다. 문제는 기댓값의 분포 자체가 ϕ에 의존한다는 것이다 — ∇ϕ가 E 안으로 들어가지 못한다.
Reparameterization trick은 이 문제를 분포의 책임 분리로 해결한다. z=gϕ(ϵ)으로 쓰고 ϵ을 ϕ에 무관한 분포에서 sampling하면:
Eqϕ[f(z)]=Epϵ[f(gϕ(ϵ))]
이제 기댓값의 분포가 ϕ에 무관하므로 DCT(지배 수렴 정리) 하에 미분과 적분을 교환할 수 있다.
∇ϕEqϕ[f(z)]=Epϵ[∇ϕf(gϕ(ϵ))]
Gaussian의 경우 z=μϕ+σϕ⋅ϵ, ϵ∼N(0,1)으로 구현된다. 비교 대상인 REINFORCE 추정량 Eq[f(z)∇ϕlogqϕ(z)]도 수학적으로 동치이지만, 분산이 약 10배 크다. Reparameterization이 VAE 학습을 실용적으로 만든 이유다.
⚠ 이산 분포의 한계
Reparameterization은 미분 가능한 gϕ를 요구한다. Bernoulli, Categorical 같은 이산 분포에는 직접 적용이 불가능하다. 이를 우회하는 것이 Gumbel-softmax: zi=softmax((logπi+gi)/τ), gi∼Gumbel(0,1). τ→0이면 이산에 수렴하고, τ>0이면 미분 가능한 연속 완화를 제공한다.
MLE는 왜 작동하는가 — Fisher 정보와 점근 정규성
신경망 학습의 cross-entropy loss는 본질적으로 MLE다. θ^n=argmaxn1∑logp(Xi;θ). 왜 이것이 올바른 추정량인가?
일관성(consistency)의 근거는 KL의 비음수성이다. WLLN에 의해 경험 log-likelihood가 E[logp(X;θ)]로 수렴하고, 이 극한은 −KL(pθ0∥pθ)−H(pθ0)이므로 θ0에서 최대가 된다. 따라서 θ^npθ0.
Aleatoric(우연적) 불확실성은 데이터 자체의 noise로 더 많은 데이터를 모아도 줄지 않는다. Epistemic(인식론적) 불확실성은 model weight의 불확실성으로 데이터가 추가되면 감소한다. 이 구분이 의료 진단, 자율주행 등 고위험 도메인에서 실용적 의미를 갖는다.
일반화를 수학적으로 보장하기 — Concentration과 PAC
ELBO와 MLE가 “학습”을 다룬다면, Concentration inequality는 “왜 학습이 일반화되는가”를 다룬다. Hoeffding 부등식은 그 핵심이다.
P(∣Xˉn−μ∣≥ε)≤2exp(−(b−a)22nε2)
이 지수적 감소가 Chebyshev의 O(1/nε2)와 다른 점이다. Finite hypothesis class H에 대해 union bound를 적용하면:
P(f∈Hsup∣L^n(f)−L(f)∣>ε)≤2∣H∣⋅e−2nε2
이로부터 ERM(empirical risk minimizer) f^의 PAC bound가 나온다: 1−δ 확률로
L(f^)≤L∗+22nlog(2∣H∣/δ)
필요 sample 수는 n≥log(2∣H∣/δ)/(2ε2)이다. 무한 hypothesis class에서는 VC dimension dVC가 ∣H∣ 자리를 대신한다.
✎ 트레이드오프 — 심층 신경망의 generalization mystery
VC bound는 NN에 직접 적용하면 vacuous하다 (파라미터 수 ≫n). 하지만 NN은 실제로 잘 일반화한다. PAC-Bayes는 단일 가설 대신 분포 Q 위에서 KL(Q∥P)를 capacity measure로 사용해 tighter bound를 제공한다. SGD의 implicit bias, flat minima, norm-based bounds 등과 함께 이 간극을 설명하려는 연구가 활발하다.