AI 2026.05.03 · 11 min
Advanced Llm Alignment Deep Dive · 3
DPO는 어떻게 Reward Model 없이 정책을 최적화하는가
KL-constrained 최적화 문제의 closed-form 해에서 시작해 reward-policy duality를 거쳐 DPO loss가 유도되기까지, Rafailov 2023의 수학적 논리를 단계별로 추적한다.
총 5개의 글
KL-constrained 최적화 문제의 closed-form 해에서 시작해 reward-policy duality를 거쳐 DPO loss가 유도되기까지, Rafailov 2023의 수학적 논리를 단계별로 추적한다.
KL의 비음수성 증명부터 Forward/Reverse KL의 기하학, JSD와 GAN의 이론적 연결, f-divergence 통일 프레임, Wasserstein의 등장까지 — 분포 간 거리의 설계 철학을 추적한다.
KL 발산의 정보이론적 기원부터 Bregman 발산과의 동치, α-divergence 가족까지 — 현대 AI 손실 함수를 관통하는 하나의 기하학적 구조를 추적한다.
e-projection과 m-projection의 비대칭성에서 출발해 EM 알고리즘, Variational Inference, MaxEnt까지, KL 기하학의 통일 원리를 추적한다.
Discriminative와 Generative의 수학적 차이부터 KL 최소화 통합 관점, IS·FID·NLL 평가 지표까지, 생성 모델을 하나의 언어로 이해한다.