AI 2026.05.03 · 13 min
Advanced Rl Theory Deep Dive · 5
PAC-MDP: RL에서 '충분히 탐색했다'는 것을 어떻게 증명하는가
샘플 복잡도의 정형적 정의부터 R-MAX의 다항식 보장, 하한 증명까지 — PAC-MDP 이론이 탐색-활용 딜레마를 수학으로 환원하는 방식을 추적한다.
총 1개의 글
샘플 복잡도의 정형적 정의부터 R-MAX의 다항식 보장, 하한 증명까지 — PAC-MDP 이론이 탐색-활용 딜레마를 수학으로 환원하는 방식을 추적한다.