AI 2026.05.03 · 11 min
Advanced Policy Gradient Deep Dive · 3
Policy Gradient Theorem의 세 가지 얼굴
PG Theorem의 정확한 서술부터 PDL 기반·Direct Unrolling 두 증명, Q→A 치환의 근거, Deterministic PG까지, 하나의 gradient 공식이 어떻게 현대 RL 알고리즘 전체를 설계하는가.
총 1개의 글
PG Theorem의 정확한 서술부터 PDL 기반·Direct Unrolling 두 증명, Q→A 치환의 근거, Deterministic PG까지, 하나의 gradient 공식이 어떻게 현대 RL 알고리즘 전체를 설계하는가.