← all posts
AI 2026.05.03 · 13 min read Advanced

PAC-MDP: RL에서 '충분히 탐색했다'는 것을 어떻게 증명하는가

샘플 복잡도의 정형적 정의부터 R-MAX의 다항식 보장, 하한 증명까지 — PAC-MDP 이론이 탐색-활용 딜레마를 수학으로 환원하는 방식을 추적한다.


DQN은 “충분히 오래 훈련하면 수렴한다”는 사실에 기댄다. 하지만 얼마나 오래 훈련해야 하는가? PAC-MDP 이론은 이 질문을 정확한 수학으로 바꾼다 — “확률 1δ1-\deltaϵ\epsilon-최적 정책을 보장하는 데 필요한 최소 샘플 수는 얼마인가?”

탐색의 비용을 정형화하기

경험적 RL에는 탐색 비용에 대한 명시적 회계가 없다. PAC-MDP는 이를 샘플 복잡도 ζ\zeta로 정형화한다.

알고리즘 A\mathcal{A}(ϵ,δ)(\epsilon, \delta)-PAC이 되려면 다음 조건을 만족해야 한다.

P ⁣(Vπt(st)V(st)ϵtB)1δP\!\left(V^{\pi_t}(s_t) \geq V^*(s_t) - \epsilon \quad \forall\, t \notin B\right) \geq 1 - \delta

여기서 BB는 “탐색 중” 시점의 집합이고 Bζ(ϵ,δ,M)|B| \leq \zeta(\epsilon, \delta, M)이다. 핵심은 BB의 존재 허용이다. 초기 탐색 단계를 명시적으로 허용하고, 그 이후 시점에서만 ϵ\epsilon-최적성을 요구한다. BB가 없다면 어떤 알고리즘도 첫 방문 전부터 보장을 달성할 수 없으므로 정의 자체가 공허해진다.

Polynomial PAC-MDPζ\zeta가 다음과 같이 상태 공간, 행동 공간, 정확도 파라미터들의 다항식으로 표현되는 경우다.

ζpoly ⁣(S,A,11γ,1ϵ,log(1/δ)δ)\zeta \leq \text{poly}\!\left(|S|,\, |A|,\, \frac{1}{1-\gamma},\, \frac{1}{\epsilon},\, \frac{\log(1/\delta)}{\delta}\right)

“다항식”이라는 조건은 지수적 복잡도와 구별되는 이론적 분기점이다.

R-MAX: 낙관주의를 통한 자동 탐색

R-MAX (Brafman & Tennenholtz 2002)는 PAC-MDP를 처음으로 구체적으로 달성한 알고리즘이다. 아이디어는 단순하다 — 미방문 상태-행동 쌍은 최고로 가정한다.

threshold mm을 기준으로 optimistic MDP M~\tilde{M}을 다음과 같이 구성한다.

r~(s,a)={r^(s,a)N(s,a)mRmaxN(s,a)<mP~(ss,a)={P^(ss,a)N(s,a)mδs(s)N(s,a)<m\tilde{r}(s,a) = \begin{cases} \hat{r}(s,a) & N(s,a) \geq m \\ R_{\max} & N(s,a) < m \end{cases} \qquad \tilde{P}(s' \mid s,a) = \begin{cases} \hat{P}(s' \mid s,a) & N(s,a) \geq m \\ \delta_{s}(s') & N(s,a) < m \end{cases}

미방문 쌍에는 최고 보상 RmaxR_{\max}를 할당하고, self-loop 전이를 붙인다. self-loop의 효과는 미묘하다. Q(s,a) = R_max + γV(s) 구조에서 현재 상태의 가치를 반복적으로 끌어올려, uniform distribution보다 탐색 압력이 강하게 유지된다. 이 구조로부터 다음이 따른다.

명제 1 · R-MAX Optimism

모든 시점 tt에 대해 VM~t(s)VM(s)V^{\tilde{M}_t}(s) \geq V^{M}(s).

▷ 증명

미방문 (s,a)(s,a)r~=Rmaxr(s,a)\tilde{r} = R_{\max} \geq r(s,a)가 할당된다. Bellman backup 연산자는 단조증가이므로, optimistic MDP에서의 value는 true MDP의 value를 항상 상회한다. \square

이 낙관주의가 탐색을 자동으로 유도한다. 알고리즘은 미방문 쌍을 “최고로 보이는 선택지”로 평가하므로 greedy policy가 자연스럽게 탐색으로 이어진다. 별도의 탐색 스케줄이 필요없다.

Simulation Lemma와 (1γ)6(1-\gamma)^6의 기원

R-MAX의 샘플 복잡도 bound는 다음과 같다.

TPACO~ ⁣(S2Aϵ3(1γ)6)T_{\text{PAC}} \leq \tilde{O}\!\left(\frac{|S|^2 |A|}{\epsilon^3(1-\gamma)^6}\right)

(1γ)6(1-\gamma)^6인가? 이 거듭제곱은 세 독립적인 (1γ)2(1-\gamma)^{-2} 인자의 곱으로 나타난다.

첫 번째 인자는 Simulation Lemma에서 나온다. 두 MDP MMM^\hat{M}의 가치 차이는 전이 커널의 TV distance로 upper bound된다.

VMπVM^πγRmax(1γ)2PP^1|V_M^\pi - V_{\hat{M}}^\pi| \leq \frac{\gamma R_{\max}}{(1-\gamma)^2} \|P - \hat{P}\|_1

이 식은 VRmax/(1γ)\|V\| \leq R_{\max}/(1-\gamma)라는 사실에서 도출된다. Bellman equation을 빼면 VMVM^γ(PP^V+VMVM^)|V_M - V_{\hat{M}}| \leq \gamma(\|P - \hat{P}\|\cdot \|V\| + \|V_M - V_{\hat{M}}\|)가 되고, 정리하면 (1γ)(1-\gamma)로 나누는 항이 두 번 등장한다.

두 번째 인자는 Hoeffding + Union bound에서 나온다. 각 (s,a)(s,a)mm번 방문했을 때 P^P1ϵp|\hat{P} - P|_1 \leq \epsilon_pSA|S||A|개 쌍 전체에 동시 보장하려면, 각 쌍에 δ/(SA)\delta/(|S||A|)의 실패 확률을 배정해야 한다. 이로부터

m12ϵp2log ⁣(2SAδ)m \geq \frac{1}{2\epsilon_p^2} \log\!\left(\frac{2|S||A|}{\delta}\right)

이 되고, ϵp=ϵ(1γ)2/(4Rmax)\epsilon_p = \epsilon(1-\gamma)^2/(4R_{\max})로 설정하면 또 다른 (1γ)4(1-\gamma)^{-4}가 등장한다.

세 번째 인자는 covering time 분석에서 추가된다. 모든 (s,a)(s,a)mm번 방문되기까지의 시간이 SAm|S||A| \cdot m에 비례하고, 여기에 optimism이 유도하는 탐색 효율이 곱해진다.

$(1-\gamma)^6$은 필연인가

대부분 분석의 looseness다. Simulation lemma를 더 타이트하게 적용하면 (1γ)3(1-\gamma)^{-3} 수준까지 줄일 수 있다는 증거가 있다. Jin et al. (2020)의 LSVI-UCB는 linear MDP 가정으로 S|S| 의존성 자체를 제거했다. 그러나 tabular setting에서 완전한 gap 폐쇄는 여전히 open problem이다.

E³: 명시적 탐색의 대가

E³ (Kearns & Singh 2002)는 R-MAX와 다른 철학을 택한다. 낙관주의 대신 상태 공간을 Known set KkK_k와 Unknown set UkU_k명시적으로 분리한다.

Phase Exploit: K_k 안에서 greedy policy 실행
Phase Explore: balanced wandering으로 U_k 진입
               — 가장 적게 실행된 행동 선택

balanced wandering은 각 (s,a)(s,a)의 방문 빈도를 균등화한다. 직관적으로는 더 공정하지만, 대가가 있다. Diameter DD인 MDP에서 covering time이 O(S2Dm)O(|S|^2 \cdot D \cdot m)이 되고, worst-case에서 D=O(S)D = O(|S|)이면 전체 bound는 O~(S4A/ϵ3(1γ)8)\tilde{O}(|S|^4|A|/\epsilon^3(1-\gamma)^8)까지 커진다. R-MAX의 암묵적 낙관주의가 더 효율적인 탐색을 달성하는 셈이다.

하한: 모든 알고리즘이 넘어야 할 벽

PAC-MDP 이론은 상한만으로 완결되지 않는다. Kakade (2003)의 하한이 벽을 정의한다.

TPAC(ϵ,δ)Ω ⁣(SAϵ2(1γ)3log(1/δ))T_{\text{PAC}}(\epsilon, \delta) \geq \Omega\!\left(\frac{|S||A|}{\epsilon^2(1-\gamma)^3} \log(1/\delta)\right)

증명 전략은 adversarial construction이다. SA|S||A|개의 독립적인 Bernoulli arm처럼 동작하는 MDP를 구성한다. 각 arm의 reward probability가 0.4인지 0.6인지 구분하려면 Chernoff bound에 의해 Ω(log(1/δ))\Omega(\log(1/\delta))번의 샘플이 필요하다. SA|S||A|개 arm을 동시에 구분해야 하므로 SAΩ(log(1/δ)/ϵ2)|S||A| \cdot \Omega(\log(1/\delta)/\epsilon^2)가 하한이 된다. (1γ)3(1-\gamma)^{-3}은 할인 factor가 가치 추정의 구별 가능성에 미치는 영향에서 나온다.

R-MAX upper bound와 lower bound의 gap을 정리하면 다음과 같다.

| | S|S| | A|A| | ϵ\epsilon | (1γ)(1-\gamma) | |---|---|---|---|---| | R-MAX upper | S2|S|^2 | A|A| | ϵ3\epsilon^{-3} | (1γ)6(1-\gamma)^{-6} | | Lower bound | S|S| | A|A| | ϵ2\epsilon^{-2} | (1γ)3(1-\gamma)^{-3} | | Gap | S|S| | — | ϵ1\epsilon^{-1} | (1γ)3(1-\gamma)^{-3} |

A|A|는 일치한다. S|S|, ϵ\epsilon, (1γ)(1-\gamma)에서 polynomial gap이 존재한다. 이 gap은 exponential이 아니므로 “이론적 승리”지만, 완전히 닫히지 않았다는 점에서 연구 과제로 남아 있다.

정리

  • PAC-MDP는 탐색 비용을 (ϵ,δ)(\epsilon, \delta)-보장과 샘플 복잡도 ζ\zeta로 정형화한다. 탐색 구간 BB를 명시적으로 허용하는 것이 핵심 설계 선택이다.
  • R-MAX의 낙관주의 원리 — 미방문 쌍에 RmaxR_{\max}를 할당하고 self-loop을 붙이는 것 — 는 별도의 탐색 스케줄 없이 자동 탐색을 달성한다.
  • Simulation lemma와 Hoeffding + union bound의 조합이 (1γ)6(1-\gamma)^6 거듭제곱을 만든다. 이 중 상당 부분은 분석의 looseness이며, linear MDP(LSVI-UCB)에서는 S|S| 의존성 자체가 제거된다.
  • 하한 Ω(SA/ϵ2(1γ)3log(1/δ))\Omega(|S||A|/\epsilon^2(1-\gamma)^3 \log(1/\delta))는 모든 알고리즘에 적용된다. R-MAX와의 polynomial gap은 여전히 열린 문제다.

“충분히 오래 훈련했다”는 직관을 수학으로 바꾸면, 그 안에 환경의 크기, 요구 정확도, 실패 허용 확률, 할인 구조가 모두 얽혀 있다.

REF
Brafman & Tennenholtz · 2002 · A New Q-value Lower Bound for PAC MDP · JMLR