tag

#llm-reasoning

총 6개의 글

AI 2026.05.05 · 11 min Advanced Llm Reasoning Deep Dive · 1

CoT의 latent variable 정식화부터 inference-time scaling law까지, reasoning chain z를 어떻게 다룰 것인가라는 공통 프레임을 추적한다.

AI 2026.05.05 · 13 min Advanced Llm Reasoning Deep Dive · 3

CoT 단일 경로의 한계부터 ToT·GoT·RAP·MCTS·Best-of-N까지, LLM 추론을 명시적 탐색 문제로 재정의하는 다섯 가지 전략을 추적한다.

AI 2026.05.05 · 12 min Advanced Llm Reasoning Deep Dive · 4

Outcome Reward의 sparse signal이 Long CoT에서 credit assignment를 망치는 원리부터, PRM이 value function과 수학적으로 동치임을 보이는 Bellman 증명까지 추적한다.

AI 2026.05.05 · 12 min Advanced Llm Reasoning Deep Dive · 5

PPO의 4-network 부담부터 GRPO의 group-relative advantage 유도, R1-Zero의 aha moment, R1의 5-stage pipeline, 그리고 RLOO/REINFORCE++까지 — LLM 추론 RL의 설계 철학을 추적한다.

AI 2026.05.05 · 12 min Advanced Llm Reasoning Deep Dive · 7

Hidden CoT로 시작해 test-time search와 open distillation까지, 추론 모델의 세 가지 설계 결정이 만들어낸 경제·안전·신뢰성의 트레이드오프를 추적한다.

AI 2026.05.03 · 12 min Advanced Pretrained Lm Deep Dive · 7

Instruction Tuning의 zero-shot 일반화 원리부터 Chain-of-Thought의 창발, Self-Consistency의 경로 앙상블, 그리고 'Emergent Abilities'가 측정 방법의 산물일 수 있다는 반론까지 추적한다.