tag

#reward-model

총 2개의 글

AI 2026.05.03 · 12 min Advanced Llm Alignment Deep Dive · 2

SFT의 format alignment부터 Reward Hacking의 정량화, Iterative RLHF의 수렴까지 — PPO가 붕괴하지 않으려면 무엇이 필요한가를 추적한다.

AI 2026.05.03 · 13 min Advanced Llm Alignment Deep Dive · 6

Length bias의 수학적 근원부터 Gao 2023 scaling law의 최적 KL, β 범위, PPO/DPO의 수렴 보장, 평가 왜곡까지 — alignment training의 구조적 취약점을 추적한다.