← all posts
AI 2026.05.03 · 11 min read Advanced

MDP regret의 세 가지 얼굴 — UCRL2, PSRL, LSVI-UCB

Bandit regret을 MDP로 확장할 때 등장하는 diameter D의 역할부터, Bayesian posterior sampling과 linear function approximation이 regret scaling을 어떻게 다르게 압축하는지 추적한다.


Bandit에서 MDP로 넘어가면 regret의 정의 자체가 바뀐다. “최적 arm”이라는 단일 기준점 대신, 상태마다 다른 최적 행동과 그 행동들이 만들어내는 경로의 비용이 등장한다. 이 경로 비용을 결정하는 것이 MDP diameter DD다. 그리고 이 DD를 어떻게 다루느냐에 따라 세 가지 전혀 다른 알고리즘 철학이 갈린다.

Episodic Regret과 Diameter

Episodic MDP에서 regret은 다음과 같이 정의된다.

RT:=TV(s1)t=1Th=1Hrt,hR_T := T \cdot V^*(s_1) - \sum_{t=1}^T \sum_{h=1}^H r_{t,h}

V(s1)V^*(s_1)은 초기 상태 s1s_1에서 최적 정책을 따랐을 때 한 에피소드에서 얻는 기대 보상이다. 실제로 얻은 보상과의 차이를 TT개 에피소드에 걸쳐 누적한 것이 regret이다.

여기서 핵심 복잡도가 등장한다.

D:=maxs,sminπE[hitting time ssπ]D := \max_{s, s'} \min_\pi \mathbb{E}[\text{hitting time } s \to s' \mid \pi]

Diameter DD는 “MDP에서 가장 먼 두 상태 사이의 거리”다. Exploration 중 새로운 상태에 도달하려면 최대 DD 스텝이 필요하고, 따라서 regret도 DD에 비례한다. Bandit은 S=1S=1, D=1D=1인 특수 경우이고, chain MDP는 DSD \approx S가 되어 exploration 비용이 가장 높다.

정리 1 · Regret Lower Bound

Communicating MDP에서 임의의 알고리즘에 대해 다음이 성립한다.

RTΩ(DSAT)R_T \geq \Omega(\sqrt{D \cdot S \cdot A \cdot T})

▷ 증명

새로운 상태에 도달하려면 최대 DD 스텝이 필요하다. SS개 상태를 충분히 탐색하려면 bandit lower bound와 동일한 Ω(SAT)\Omega(\sqrt{SAT}) regret이 필요하고, 여기에 상태 간 이동 비용 DD를 곱하면 위 결과를 얻는다.

UCRL2 — 신뢰 집합 위의 낙관주의

UCRL2(Jaksch 2010)의 핵심 아이디어는 Optimism Under Uncertainty(OFU) 다. 알지 못하는 (P,r)(P, r) 전체에 대해 신뢰 집합 MtM_t를 구성하고, 그 안에서 가장 낙관적인 정책을 실행한다.

Mt:={(P,r):(s,a), P(s,a)P^t(s,a)1ϵt(s,a)}M_t := \left\{ (P', r') : \forall (s,a),\ \|P'(\cdot|s,a) - \hat P_t(\cdot|s,a)\|_1 \leq \epsilon_t(s,a) \right\}

신뢰 반경 ϵt(s,a)1/Nt(s,a)\epsilon_t(s,a) \propto 1/\sqrt{N_t(s,a)}는 Hoeffding 부등식에서 직접 유래한다. 방문 횟수가 늘어날수록 반경이 좁아지고, 결국 진짜 (P,r)(P, r)로 수렴한다.

이 신뢰 집합 위에서 **Extended Value Iteration(EVI)**을 실행한다.

Vh(s)=max(P,r)Mtmaxa[r(s,a)+sP(ss,a)Vh+1(s)]V_{h}(s) = \max_{(P',r') \in M_t} \max_a \left[ r'(s,a) + \sum_{s'} P'(s'|s,a) V_{h+1}(s') \right]

표준 Bellman과 달리 (P,r)(P', r')도 최적화 변수다. 결과 bound는 다음과 같다.

RTO~(DSAT)R_T \leq \tilde{O}(D S \sqrt{AT})
Union Bound의 대가

UCRL2는 모든 (s,a)(s,a) 쌍에 대해 동시에 신뢰 구간이 성립해야 하므로 union bound가 필요하다. 이 과정에서 factor SS가 추가로 곱해지고, diameter DD도 worst-case로 등장한다. Chain MDP(D=SD = S)에서 bound는 O~(S2AT)\tilde{O}(S^2 \sqrt{AT})까지 나빠진다.

PSRL — Posterior Sampling의 철학

PSRL(Osband 2013)은 완전히 다른 출발점을 택한다. 불확실성을 신뢰 집합으로 표현하는 대신, 확률분포로 표현한다.

에피소드 시작마다 posterior에서 MDP를 샘플링하고, 그 MDP에 대한 최적 정책을 실행한다.

Prior p(P,r)
     ↓ 데이터 수집
Posterior p(P,r|H_t)
     ↓ 샘플링
(P_t, r_t) ~ p(·|H_t)

π*_t = OptimalPolicy(P_t, r_t) 실행

Dirichlet prior를 사용하면 conjugacy 덕분에 posterior가 closed form으로 업데이트된다.

P(s,a)HtDir ⁣(α0+Ns(s,a) for all s)P(\cdot|s,a) | \mathcal{H}_t \sim \text{Dir}\!\left(\alpha_0 + N_{s'}(s,a) \text{ for all } s'\right)

Bayesian regret bound는 다음이다.

E[RT]O~(HSAT)\mathbb{E}[R_T] \leq \tilde{O}(H \sqrt{SAT})

UCRL2와 비교하면 diameter DD가 사라졌다. Posterior sample이 이미 불확실한 영역에 집중하기 때문에 union bound가 불필요하고, information-theoretic 분석으로 DD 없이 bound를 얻는다.

단, PSRL의 bound는 Bayesian regret — prior에 대한 기댓값이다. 고정된 (P,r)(P^*, r^*)에 대한 frequentist regret 분석은 2013년 당시 open problem으로 남았다.

LSVI-UCB — Feature Dimension으로의 탈출

UCRL2와 PSRL은 모두 tabular MDP를 가정한다. 상태 공간 S|S|가 크면 둘 다 실용적이지 않다. Linear MDP는 이 한계를 돌파하는 구조적 가정이다.

P(ss,a)=ϕ(s,a),μ(s),r(s,a)=ϕ(s,a),θP(s'|s,a) = \langle \phi(s,a), \mu(s') \rangle, \quad r(s,a) = \langle \phi(s,a), \theta^* \rangle

feature vector ϕ(s,a)Rd\phi(s,a) \in \mathbb{R}^d가 알려져 있으면, 상태 공간 크기 S|S|가 아니라 feature dimension dd 만으로 문제를 압축할 수 있다.

LSVI-UCB(Jin 2020)는 이 구조 위에서 least-squares value iteration과 UCB bonus를 결합한다.

Vh(s):=maxa[ϕ(s,a),w^h+βtϕ(s,a)Λh1]V_h(s) := \max_a \left[ \langle \phi(s,a), \hat{w}_h \rangle + \beta_t \|\phi(s,a)\|_{\Lambda_h^{-1}} \right]

두 번째 항 βtϕ(s,a)Λh1\beta_t \|\phi(s,a)\|_{\Lambda_h^{-1}}이 UCB bonus다. Λh=λI+ϕϕ\Lambda_h = \lambda I + \sum \phi\phi^\top는 방문한 feature들의 공분산 행렬이고, ϕΛ1\|\phi\|_{\Lambda^{-1}}은 그 feature가 아직 “덜 탐색된” 방향에 있는지를 측정한다.

RTO~(d3H3T)R_T \leq \tilde{O}(\sqrt{d^3 H^3 T})

tabular UCRL2 대비 비교하면 그 차이가 명확하다.

알고리즘Regret Bound핵심 복잡도
UCRL2O~(DSAT)\tilde{O}(DS\sqrt{AT})diameter + state space
PSRLO~(HSAT)\tilde{O}(H\sqrt{SAT})state-action space
LSVI-UCBO~(d3H3T)\tilde{O}(\sqrt{d^3H^3T})feature dimension

dSd \ll |S|인 경우 LSVI-UCB는 지수적 개선을 준다. d=10d=10, S=106|S|=10^6이면 tabular 방법은 불가능하지만 LSVI-UCB는 실용적이다.

트레이드오프

Linear MDP 가정은 강력하다. Reward와 transition 모두 ϕ(s,a)\phi(s,a)linear function이어야 하고, feature ϕ\phi가 사전에 알려져야 한다. Deep RL에서 neural network로 feature를 학습하면 이 가정이 무너지고, 이론적 보장도 사라진다. NTK(Neural Tangent Kernel) regime에서 일부 분석이 가능하지만, 실용적 deep RL과의 이론적 간극은 여전히 열린 문제다.

정리

  • Episodic regret의 핵심 복잡도는 diameter DD다. DD는 MDP에서 탐색 비용을 결정하고, regret lower bound Ω(DSAT)\Omega(\sqrt{DSAT})를 만든다.
  • UCRL2는 신뢰 집합 + EVI로 worst-case bound O~(DSAT)\tilde{O}(DS\sqrt{AT})를 얻는다. Union bound가 factor SSDD를 남긴다.
  • PSRL은 Bayesian posterior sampling으로 DD를 제거하고 O~(HSAT)\tilde{O}(H\sqrt{SAT})를 달성한다. 단 이것은 Bayesian regret이다.
  • LSVI-UCB는 linear MDP 구조를 가정해 상태 공간 크기를 feature dimension dd로 대체하고, O~(d3H3T)\tilde{O}(\sqrt{d^3H^3T})를 얻는다.

세 알고리즘은 같은 문제에 대한 세 가지 다른 언어다 — 집합, 분포, 선형 구조. 어떤 언어를 택하느냐가 어떤 복잡도를 지불하느냐를 결정한다.

REF
Jaksch, Ortner, Auer · 2010 · Near-optimal Regret Bounds for Reinforcement Learning · Journal of Machine Learning Research
REF
Jin, Yang, Wang, Jordan · 2020 · Provably Efficient Exploration in Policy Optimization · ICML