#process-reward-model

AI 2026.05.05 · 12 min Advanced Llm Reasoning Deep Dive · 4

Outcome Reward의 sparse signal이 Long CoT에서 credit assignment를 망치는 원리부터, PRM이 value function과 수학적으로 동치임을 보이는 Bellman 증명까지 추적한다.