AI 2026.05.05 · 11 min
Advanced Llm Reasoning Deep Dive · 1
LLM Reasoning의 모든 기법은 하나의 질문에서 나온다
CoT의 latent variable 정식화부터 inference-time scaling law까지, reasoning chain z를 어떻게 다룰 것인가라는 공통 프레임을 추적한다.
총 6개의 글
CoT의 latent variable 정식화부터 inference-time scaling law까지, reasoning chain z를 어떻게 다룰 것인가라는 공통 프레임을 추적한다.
CoT 단일 경로의 한계부터 ToT·GoT·RAP·MCTS·Best-of-N까지, LLM 추론을 명시적 탐색 문제로 재정의하는 다섯 가지 전략을 추적한다.
Outcome Reward의 sparse signal이 Long CoT에서 credit assignment를 망치는 원리부터, PRM이 value function과 수학적으로 동치임을 보이는 Bellman 증명까지 추적한다.
PPO의 4-network 부담부터 GRPO의 group-relative advantage 유도, R1-Zero의 aha moment, R1의 5-stage pipeline, 그리고 RLOO/REINFORCE++까지 — LLM 추론 RL의 설계 철학을 추적한다.
Hidden CoT로 시작해 test-time search와 open distillation까지, 추론 모델의 세 가지 설계 결정이 만들어낸 경제·안전·신뢰성의 트레이드오프를 추적한다.
Instruction Tuning의 zero-shot 일반화 원리부터 Chain-of-Thought의 창발, Self-Consistency의 경로 앙상블, 그리고 'Emergent Abilities'가 측정 방법의 산물일 수 있다는 반론까지 추적한다.