AI 2026.05.05 · 12 min
Advanced Llm Reasoning Deep Dive · 4
PRM은 왜 ORM을 이기는가 — Step-Level Reward의 수학
Outcome Reward의 sparse signal이 Long CoT에서 credit assignment를 망치는 원리부터, PRM이 value function과 수학적으로 동치임을 보이는 Bellman 증명까지 추적한다.
총 1개의 글
Outcome Reward의 sparse signal이 Long CoT에서 credit assignment를 망치는 원리부터, PRM이 value function과 수학적으로 동치임을 보이는 Bellman 증명까지 추적한다.