tag

#actor-critic

총 5개의 글

AI 2026.05.05 · 10 min Advanced Model-Free RL Deep Dive · 6

Actor-Critic은 왜 두 역할로 나뉘는가

Actor와 Critic의 분리가 만들어내는 분산 감소 원리부터, Advantage 추정의 bias-variance 트레이드오프, Deadly Triad까지 — AC 프레임워크의 설계 결정을 추적한다.

AI 2026.05.03 · 11 min Advanced Policy Gradient Deep Dive · 3

Policy Gradient Theorem의 세 가지 얼굴

PG Theorem의 정확한 서술부터 PDL 기반·Direct Unrolling 두 증명, Q→A 치환의 근거, Deterministic PG까지, 하나의 gradient 공식이 어떻게 현대 RL 알고리즘 전체를 설계하는가.

AI 2026.05.03 · 10 min Advanced Policy Gradient Deep Dive · 4

Policy Gradient의 분산은 어떻게 줄이는가

Baseline subtraction의 unbiasedness 증명부터 control variate 이론, Actor-Critic의 bootstrapping bias, entropy regularization까지 — variance reduction의 통일된 원리를 추적한다.

AI 2026.05.03 · 12 min Advanced Policy Gradient Deep Dive · 6

Actor-Critic은 어떻게 진화했는가

Basic AC의 two-timescale 수렴부터 A3C의 비동기 병렬화, A2C의 동기 배치, PPO의 clipped surrogate, IMPALA의 V-trace 오프-폴리시 보정까지, 하나의 설계 철학이 어떻게 확장되는지 추적한다.

AI 2026.05.03 · 16 min Advanced Deep Rl Deep Dive · 7

DDPG는 왜 불안정한가 — Continuous Control의 설계와 균열

DQN이 연속 행동 공간에서 실패하는 수학적 이유부터 DDPG의 결정론적 정책 기울기 유도, Q-과대추정과 탐험 민감성까지, continuous control의 핵심 트레이드오프를 추적한다.