AI 2026.05.03 · 12 min
Advanced Model Free Rl Deep Dive · 1
Model-Free RL의 네 가지 근본 질문
Model-free RL의 출발점인 planning vs learning 패러다임 차이부터 sample complexity, GPI 통합 틀, exploration-exploitation 조건까지 — 이후 모든 알고리즘의 동기를 하나의 프레임으로 추적한다.
총 5개의 글
Model-free RL의 출발점인 planning vs learning 패러다임 차이부터 sample complexity, GPI 통합 틀, exploration-exploitation 조건까지 — 이후 모든 알고리즘의 동기를 하나의 프레임으로 추적한다.
OFU 원칙의 수학적 근거부터 UCB1 regret 증명, KL-UCB의 정보이론적 최적성, MOSS의 minimax 달성까지 — Bandit 탐색 이론의 통일 프레임워크를 추적한다.
Dueling Network의 분해부터 Noisy Net의 암묵적 탐험까지, Rainbow를 구성하는 다섯 요소가 공유하는 설계 철학과 그 수학적 근거를 추적한다.
MAB를 넘어 context, 선형 모델, 커널 함수로 확장되는 bandit 이론의 핵심 — confidence ellipsoid와 information gain이 같은 철학에서 나온다는 것을 추적한다.
샘플 복잡도의 정형적 정의부터 R-MAX의 다항식 보장, 하한 증명까지 — PAC-MDP 이론이 탐색-활용 딜레마를 수학으로 환원하는 방식을 추적한다.