tag

#preference-optimization

총 2개의 글

AI 2026.05.03 · 11 min Advanced Llm Alignment Deep Dive · 3

KL-constrained 최적화 문제의 closed-form 해에서 시작해 reward-policy duality를 거쳐 DPO loss가 유도되기까지, Rafailov 2023의 수학적 논리를 단계별로 추적한다.

AI 2026.05.03 · 11 min Advanced Llm Alignment Deep Dive · 4

DPO의 Bradley-Terry 가정이 낳은 overfit 문제부터 PPO의 critic 제거까지, 최신 alignment 기법 5종의 설계 결정과 트레이드오프를 추적한다.