#sft · IQ Lab

AI 2026.05.03 · 12 min Advanced Llm Alignment Deep Dive · 2

SFT의 format alignment부터 Reward Hacking의 정량화, Iterative RLHF의 수렴까지 — PPO가 붕괴하지 않으려면 무엇이 필요한가를 추적한다.