tag

#reinforcement-learning

총 34개의 글

AI 2026.05.05 · 12 min Advanced Llm Reasoning Deep Dive · 4

PRM은 왜 ORM을 이기는가 — Step-Level Reward의 수학

Outcome Reward의 sparse signal이 Long CoT에서 credit assignment를 망치는 원리부터, PRM이 value function과 수학적으로 동치임을 보이는 Bellman 증명까지 추적한다.

AI 2026.05.05 · 12 min Advanced Llm Reasoning Deep Dive · 5

GRPO는 어떻게 PPO의 Critic을 없앴는가

PPO의 4-network 부담부터 GRPO의 group-relative advantage 유도, R1-Zero의 aha moment, R1의 5-stage pipeline, 그리고 RLOO/REINFORCE++까지 — LLM 추론 RL의 설계 철학을 추적한다.

AI 2026.05.05 · 10 min Advanced Model-Free RL Deep Dive · 6

Actor-Critic은 왜 두 역할로 나뉘는가

Actor와 Critic의 분리가 만들어내는 분산 감소 원리부터, Advantage 추정의 bias-variance 트레이드오프, Deadly Triad까지 — AC 프레임워크의 설계 결정을 추적한다.

AI 2026.05.03 · 13 min Advanced Rl Theory Deep Dive · 1

Bandit 알고리즘은 왜 로그 regret을 목표로 하는가

탐색-활용 딜레마의 수학적 정의부터 Lai-Robbins 하한과 minimax 관점까지, stochastic bandit 이론의 핵심 구조를 추적한다.

AI 2026.05.03 · 12 min Advanced Rl Foundations Deep Dive · 1

MDP는 왜 정확히 6개의 성분으로 정의되는가

Measurable space와 stochastic kernel부터 POMDP의 belief-MDP 변환까지, 강화학습 이론 전체를 떠받치는 수학적 토대를 추적한다.

AI 2026.05.03 · 9 min Advanced Policy Gradient Deep Dive · 1

Policy Gradient는 왜 직접 정책을 최적화하는가

Value-based의 한계부터 stochastic 최적 정책의 필요성, softmax·Gaussian 파라미터화, 그리고 J(θ)의 세 가지 등가 정식화까지 Policy Gradient의 출발점을 추적한다.

AI 2026.05.03 · 12 min Advanced Model Free Rl Deep Dive · 1

Model-Free RL의 네 가지 근본 질문

Model-free RL의 출발점인 planning vs learning 패러다임 차이부터 sample complexity, GPI 통합 틀, exploration-exploitation 조건까지 — 이후 모든 알고리즘의 동기를 하나의 프레임으로 추적한다.

AI 2026.05.03 · 11 min Advanced Rl Foundations Deep Dive · 2

Bellman Equation은 왜 작동하는가

Discounted return의 수렴 조건부터 Bellman operator의 고정점 존재성까지, RL 가치 함수 이론의 수학적 토대를 추적한다.

AI 2026.05.03 · 12 min Advanced Model Free Rl Deep Dive · 2

Monte Carlo RL은 왜 두 가지 방문 방식을 갖는가

First-visit과 every-visit의 bias 차이부터 off-policy importance sampling의 분산 폭발까지, MC 계열 알고리즘이 공유하는 하나의 긴장을 추적한다.

AI 2026.05.03 · 10 min Advanced Rl Theory Deep Dive · 2

UCB 알고리즘군은 왜 단순한 공식으로 near-optimal 탐색을 달성하는가

OFU 원칙의 수학적 근거부터 UCB1 regret 증명, KL-UCB의 정보이론적 최적성, MOSS의 minimax 달성까지 — Bandit 탐색 이론의 통일 프레임워크를 추적한다.

AI 2026.05.03 · 10 min Advanced Rl Foundations Deep Dive · 3

Bellman Optimality Equation은 왜 Value Iteration을 보증하는가

최적 가치 함수의 정의부터 Bellman Optimality Operator의 수축 성질까지, Value Iteration 수렴의 수학적 근거를 추적한다.

AI 2026.05.03 · 11 min Advanced Policy Gradient Deep Dive · 3

Policy Gradient Theorem의 세 가지 얼굴

PG Theorem의 정확한 서술부터 PDL 기반·Direct Unrolling 두 증명, Q→A 치환의 근거, Deterministic PG까지, 하나의 gradient 공식이 어떻게 현대 RL 알고리즘 전체를 설계하는가.

AI 2026.05.03 · 11 min Advanced Model Free Rl Deep Dive · 3

TD Learning은 왜 MC와 DP 사이에 서 있는가

TD error의 zero-mean 성질부터 SARSA의 on-policy 수렴, bias-variance 분해까지 — model-free RL의 핵심 설계 결정을 추적한다.

AI 2026.05.03 · 11 min Advanced Rl Theory Deep Dive · 3

Thompson Sampling은 왜 파라미터 없이도 최적인가

Posterior sampling의 probability matching 원리부터 정보비율 최소화까지, Bayesian bandit 알고리즘의 통일 원리를 추적한다.

AI 2026.05.03 · 11 min Advanced Rl Foundations Deep Dive · 4

Bellman operator는 왜 수렴이 보장되는가

Banach Fixed Point Theorem이 RL 수렴 보장의 뿌리인 이유부터 T^π와 T^* 의 contraction 증명, Value Iteration 정지 기준, γ→1 한계까지 추적한다.

AI 2026.05.03 · 12 min Advanced Model Free Rl Deep Dive · 4

Q-Learning 수렴 증명의 통일된 구조

Q-Learning 업데이트 규칙부터 Watkins–Dayan 수렴 정리, Robbins–Monro 조건, JJS 일반화, Double Q-Learning의 최대화 편향 제거까지, model-free RL의 수학적 뼈대를 추적한다.

AI 2026.05.03 · 11 min Advanced Rl Foundations Deep Dive · 5

GPI — 모든 RL 알고리즘을 하나의 틀로 보는 법

Policy Evaluation의 수렴 보장부터 Policy Improvement Theorem, Value Iteration의 Bellman residual, 그리고 GPI가 Q-learning과 Actor-Critic까지 통합하는 방식을 추적한다.

AI 2026.05.03 · 8 min Advanced Policy Gradient Deep Dive · 5

GAE는 왜 λ 하나로 bias-variance를 제어할 수 있는가

TD residual의 bootstrapping bias부터 GAE의 지수적 가중 평균 유도, λ의 두 극한, 역순 O(T) 구현까지 — advantage estimation의 핵심 설계를 추적한다.

AI 2026.05.03 · 12 min Advanced Model Free Rl Deep Dive · 5

n-step Return에서 TD(λ)까지: 하나의 스펙트럼

TD(0)와 MC 사이의 연속체를 n-step return이 어떻게 매개변수화하는가. bias-variance 트레이드오프의 수학적 분해부터 eligibility trace의 세 가지 구현까지.

AI 2026.05.03 · 13 min Advanced Rl Theory Deep Dive · 5

PAC-MDP: RL에서 '충분히 탐색했다'는 것을 어떻게 증명하는가

샘플 복잡도의 정형적 정의부터 R-MAX의 다항식 보장, 하한 증명까지 — PAC-MDP 이론이 탐색-활용 딜레마를 수학으로 환원하는 방식을 추적한다.

AI 2026.05.03 · 12 min Advanced Policy Gradient Deep Dive · 6

Actor-Critic은 어떻게 진화했는가

Basic AC의 two-timescale 수렴부터 A3C의 비동기 병렬화, A2C의 동기 배치, PPO의 clipped surrogate, IMPALA의 V-trace 오프-폴리시 보정까지, 하나의 설계 철학이 어떻게 확장되는지 추적한다.

AI 2026.05.03 · 11 min Advanced Rl Foundations Deep Dive · 6

RL 성능 분석의 언어 — State Distribution부터 근사 오차까지

Performance Difference Lemma의 닭과 달걀 문제부터 greedy 정책 손실의 수학적 bound까지, 현대 RL 이론이 공유하는 하나의 언어를 추적한다.

AI 2026.05.03 · 11 min Advanced Rl Theory Deep Dive · 6

MDP regret의 세 가지 얼굴 — UCRL2, PSRL, LSVI-UCB

Bandit regret을 MDP로 확장할 때 등장하는 diameter D의 역할부터, Bayesian posterior sampling과 linear function approximation이 regret scaling을 어떻게 다르게 압축하는지 추적한다.

AI 2026.05.03 · 14 min Advanced Rl Foundations Deep Dive · 7

RL에서 함수 근사는 왜 불안정한가

무한 상태 공간의 선형 근사부터 Deadly Triad의 발산, Linear MDP의 수렴 보장, Bisimulation 기반 상태 추상화까지 — 함수 근사의 수렴 조건을 추적한다.

AI 2026.05.03 · 13 min Advanced Model Free Rl Deep Dive · 7

Model-Free RL의 수렴은 왜 이렇게 까다로운가

Deadly Triad의 세 조건이 동시에 만족될 때 발산이 일어나는 이유부터, Experience Replay·Reward Shaping·Deep RL의 공학적 우회까지, Model-Free RL 수렴 이론의 전체 지형을 추적한다.

AI 2026.05.03 · 10 min Advanced Policy Gradient Deep Dive · 7

NPG에서 TRPO까지 — Policy Gradient가 진화하는 이유

Vanilla PG의 step size 민감성 문제부터 Fisher metric, 계산 가능성의 병목, 그리고 TRPO의 신뢰 영역 제약까지, natural gradient가 현대 RL의 이론적 뼈대가 되는 과정을 추적한다.

AI 2026.04.28 · 10 min Advanced Advanced Rl Deep Dive · 1

TRPO·PPO의 이론적 뿌리 — Performance Difference Lemma

두 정책의 성능 차이를 advantage로 분해하는 PDL부터 surrogate objective, trust region bound, monotonic improvement 보장까지, advanced RL의 단일 이론 체계를 추적한다.

AI 2026.04.28 · 10 min Advanced Advanced Rl Deep Dive · 2

TRPO는 왜 KL을 step size로 쓰는가

단조 개선 보장을 실전에서 구현하기 위한 TRPO의 constraint 형식화부터 Natural PG 환원, Conjugate Gradient, Line Search까지 — 하나의 철학이 네 단계로 펼쳐지는 과정을 추적한다.

AI 2026.04.28 · 11 min Advanced Advanced Rl Deep Dive · 3

PPO는 왜 TRPO를 대체했는가

2차 최적화의 계산 비용 문제부터 Clipped Objective의 수학적 구조, RLHF 스케일까지 — PPO가 강화학습의 실질적 표준이 된 이유를 추적한다.

AI 2026.04.28 · 11 min Advanced Advanced Rl Deep Dive · 4

SAC는 왜 동작하는가 — MaxEnt RL의 설계 철학

엔트로피 보너스가 왜 자연스러운 exploration인가. Soft Bellman의 수렴 보장부터 KL projection, twin critics, auto-α까지 SAC의 모든 설계 결정을 하나의 프레임으로 추적한다.

AI 2026.04.28 · 12 min Advanced Advanced Rl Deep Dive · 5

TD3는 왜 DDPG보다 안정적인가

Q-function 과대추정부터 학습 발산까지, DDPG의 세 가지 불안정성 원인과 TD3의 세 가지 수정이 어떻게 vicious cycle을 끊는지 추적한다.

AI 2026.04.28 · 12 min Advanced Advanced Rl Deep Dive · 6

On-policy와 Off-policy — RL 알고리즘 선택의 실제 기준

Sample efficiency와 학습 안정성의 근본 긴장부터 분산 RL 아키텍처, Hybrid 알고리즘의 트레이드오프까지, 현대 RL 알고리즘 설계 철학을 추적한다.

AI 2026.04.28 · 10 min Advanced Information Geometry Deep Dive · 7

정보기하가 현대 AI를 어떻게 만드는가

Natural Policy Gradient의 Fisher 역행렬부터 확산 모델의 Fisher divergence까지, 정보기하의 단일 철학이 RL·생성 모델·샘플링에 어떻게 관통하는지 추적한다.

AI 2026.04.28 · 12 min Advanced Advanced Rl Deep Dive · 7

Offline RL부터 LLM 정렬까지 — 현대 RL의 공통 철학

OOD 문제를 pessimism으로 해결하는 CQL, BC 정규화를 쓰는 TD3+BC, 상상 롤아웃으로 샘플 효율을 높이는 Dreamer, 그리고 RLHF·DPO가 공유하는 하나의 원칙을 추적한다.