AI 2026.05.03 · 12 min
Advanced Policy Gradient Deep Dive · 6
Actor-Critic은 어떻게 진화했는가
Basic AC의 two-timescale 수렴부터 A3C의 비동기 병렬화, A2C의 동기 배치, PPO의 clipped surrogate, IMPALA의 V-trace 오프-폴리시 보정까지, 하나의 설계 철학이 어떻게 확장되는지 추적한다.
총 1개의 글
Basic AC의 two-timescale 수렴부터 A3C의 비동기 병렬화, A2C의 동기 배치, PPO의 clipped surrogate, IMPALA의 V-trace 오프-폴리시 보정까지, 하나의 설계 철학이 어떻게 확장되는지 추적한다.