tag

#policy-gradient

총 10개의 글

AI 2026.05.05 · 10 min Advanced Model-Free RL Deep Dive · 6

Actor-Critic은 왜 두 역할로 나뉘는가

Actor와 Critic의 분리가 만들어내는 분산 감소 원리부터, Advantage 추정의 bias-variance 트레이드오프, Deadly Triad까지 — AC 프레임워크의 설계 결정을 추적한다.

AI 2026.05.03 · 9 min Advanced Policy Gradient Deep Dive · 1

Policy Gradient는 왜 직접 정책을 최적화하는가

Value-based의 한계부터 stochastic 최적 정책의 필요성, softmax·Gaussian 파라미터화, 그리고 J(θ)의 세 가지 등가 정식화까지 Policy Gradient의 출발점을 추적한다.

AI 2026.05.03 · 9 min Advanced Policy Gradient Deep Dive · 2

REINFORCE는 왜 분산이 높은가

Log-derivative trick부터 score function의 zero-mean 성질, REINFORCE의 unbiasedness와 variance 폭발 메커니즘, reparameterization과의 tradeoff까지 policy gradient의 수학적 토대를 추적한다.

AI 2026.05.03 · 11 min Advanced Policy Gradient Deep Dive · 3

Policy Gradient Theorem의 세 가지 얼굴

PG Theorem의 정확한 서술부터 PDL 기반·Direct Unrolling 두 증명, Q→A 치환의 근거, Deterministic PG까지, 하나의 gradient 공식이 어떻게 현대 RL 알고리즘 전체를 설계하는가.

AI 2026.05.03 · 10 min Advanced Policy Gradient Deep Dive · 4

Policy Gradient의 분산은 어떻게 줄이는가

Baseline subtraction의 unbiasedness 증명부터 control variate 이론, Actor-Critic의 bootstrapping bias, entropy regularization까지 — variance reduction의 통일된 원리를 추적한다.

AI 2026.05.03 · 8 min Advanced Policy Gradient Deep Dive · 5

GAE는 왜 λ 하나로 bias-variance를 제어할 수 있는가

TD residual의 bootstrapping bias부터 GAE의 지수적 가중 평균 유도, λ의 두 극한, 역순 O(T) 구현까지 — advantage estimation의 핵심 설계를 추적한다.

AI 2026.05.03 · 12 min Advanced Policy Gradient Deep Dive · 6

Actor-Critic은 어떻게 진화했는가

Basic AC의 two-timescale 수렴부터 A3C의 비동기 병렬화, A2C의 동기 배치, PPO의 clipped surrogate, IMPALA의 V-trace 오프-폴리시 보정까지, 하나의 설계 철학이 어떻게 확장되는지 추적한다.

AI 2026.05.03 · 16 min Advanced Deep Rl Deep Dive · 7

DDPG는 왜 불안정한가 — Continuous Control의 설계와 균열

DQN이 연속 행동 공간에서 실패하는 수학적 이유부터 DDPG의 결정론적 정책 기울기 유도, Q-과대추정과 탐험 민감성까지, continuous control의 핵심 트레이드오프를 추적한다.

AI 2026.05.03 · 10 min Advanced Policy Gradient Deep Dive · 7

NPG에서 TRPO까지 — Policy Gradient가 진화하는 이유

Vanilla PG의 step size 민감성 문제부터 Fisher metric, 계산 가능성의 병목, 그리고 TRPO의 신뢰 영역 제약까지, natural gradient가 현대 RL의 이론적 뼈대가 되는 과정을 추적한다.

AI 2026.04.28 · 11 min Advanced Advanced Rl Deep Dive · 3

PPO는 왜 TRPO를 대체했는가

2차 최적화의 계산 비용 문제부터 Clipped Objective의 수학적 구조, RLHF 스케일까지 — PPO가 강화학습의 실질적 표준이 된 이유를 추적한다.