AI 2026.05.03 · 13 min
Advanced Model Free Rl Deep Dive · 7
Model-Free RL의 수렴은 왜 이렇게 까다로운가
Deadly Triad의 세 조건이 동시에 만족될 때 발산이 일어나는 이유부터, Experience Replay·Reward Shaping·Deep RL의 공학적 우회까지, Model-Free RL 수렴 이론의 전체 지형을 추적한다.
총 1개의 글
Deadly Triad의 세 조건이 동시에 만족될 때 발산이 일어나는 이유부터, Experience Replay·Reward Shaping·Deep RL의 공학적 우회까지, Model-Free RL 수렴 이론의 전체 지형을 추적한다.