tag

#bandit

총 3개의 글

AI 2026.05.03 · 13 min Advanced Rl Theory Deep Dive · 1

탐색-활용 딜레마의 수학적 정의부터 Lai-Robbins 하한과 minimax 관점까지, stochastic bandit 이론의 핵심 구조를 추적한다.

AI 2026.05.03 · 10 min Advanced Rl Theory Deep Dive · 2

OFU 원칙의 수학적 근거부터 UCB1 regret 증명, KL-UCB의 정보이론적 최적성, MOSS의 minimax 달성까지 — Bandit 탐색 이론의 통일 프레임워크를 추적한다.

AI 2026.05.03 · 13 min Advanced Rl Theory Deep Dive · 7

Pure Exploration의 두 프레임워크(Fixed-Confidence vs Fixed-Budget)의 근본적 차이부터 Instance-Optimal 알고리즘까지, BAI 이론의 핵심 구조를 추적한다.