tag

#grpo

총 2개의 글

AI 2026.05.05 · 12 min Advanced Llm Reasoning Deep Dive · 5

PPO의 4-network 부담부터 GRPO의 group-relative advantage 유도, R1-Zero의 aha moment, R1의 5-stage pipeline, 그리고 RLOO/REINFORCE++까지 — LLM 추론 RL의 설계 철학을 추적한다.

AI 2026.05.03 · 11 min Advanced Llm Alignment Deep Dive · 4

DPO의 Bradley-Terry 가정이 낳은 overfit 문제부터 PPO의 critic 제거까지, 최신 alignment 기법 5종의 설계 결정과 트레이드오프를 추적한다.