AI 2026.05.03 · 13 min
Advanced Rl Theory Deep Dive · 1
Bandit 알고리즘은 왜 로그 regret을 목표로 하는가
탐색-활용 딜레마의 수학적 정의부터 Lai-Robbins 하한과 minimax 관점까지, stochastic bandit 이론의 핵심 구조를 추적한다.
총 1개의 글
탐색-활용 딜레마의 수학적 정의부터 Lai-Robbins 하한과 minimax 관점까지, stochastic bandit 이론의 핵심 구조를 추적한다.