LLM Reasoning의 모든 기법은 하나의 질문에서 나온다
CoT의 latent variable 정식화부터 inference-time scaling law까지, reasoning chain z를 어떻게 다룰 것인가라는 공통 프레임을 추적한다.
- 01 LLM Reasoning의 모든 기법은 하나의 질문에서 나온다
- 02 프롬프트는 어떻게 추론을 만드는가
- 03 LLM이 나무를 타고 답을 찾는 법
- 04 PRM은 왜 ORM을 이기는가 — Step-Level Reward의 수학
- 05 GRPO는 어떻게 PPO의 Critic을 없앴는가
- 06 LLM Agent는 어떻게 도구를 쓰고, 실패에서 배우고, 함께 생각하는가
- 07 LLM Reasoning의 세 가지 도약 — o1, o3, R1이 만든 새 균형점
Self-Consistency, Tree-of-Thought, PRM, GRPO — LLM reasoning 의 모든 기법은 표면적으로 각자 다른 문제를 해결하는 것처럼 보인다. 그러나 파고들면 동일한 질문으로 수렴한다. reasoning chain 를 어떻게 다룰 것인가. CoT 가 를 latent variable 로 노출하는 순간, 이후의 모든 기법은 그 를 샘플링하고, 집계하고, 평가하는 방법의 변주다. 이 구조가 왜 작은 모델에서는 해롭고, 큰 모델에서는 추론 성능을 폭발시키며, 결국 새로운 경제적 패러다임까지 만들어내는가?
CoT는 무엇을 바꾸었나
Standard prompting 은 다. 모델이 입력 에서 답 로 바로 매핑한다. reasoning 은 모델 내부 hidden state 에 묻혀 있고, 사용자는 그 경로를 볼 수 없다.
Chain-of-Thought 는 이 구조를 바꾼다.
reasoning chain 를 explicit latent variable 로 surface text 에 끌어올린다. 실제 sampling 은 marginalize 하지 않고 single chain 을 뽑는다.
이 한 줄의 차이가 모든 것을 만든다. 모델이 자신이 생성한 reasoning 을 attend 할 수 있게 되고, test-time compute 가 품질에 기여하기 시작하며, 이후의 모든 기법이 이 를 어떻게 가공할지를 고민하는 문제로 환원된다.
Zero-shot CoT 는 이 변화의 극단을 보여준다. “Let’s think step by step” 단 여섯 단어가 InstructGPT 의 GSM8K 정확도를 17.7% 에서 78.7% 로 끌어올린다. reasoning capacity 는 모델 안에 이미 있었고, trigger 만 필요했다.
Emergence — 왜 작은 모델에서는 해로운가
CoT 가 모든 모델에 도움이 되는 것은 아니다. 이것이 가장 중요한 실증적 발견이다.
모델이 충분히 크지 않으면 가 부정확한 reasoning chain 을 생성한다. 틀린 에 conditioning 하면 오히려 가 되어 standard prompting 보다 성능이 낮아진다.
CoT 가 효과적이려면 이어야 한다 — 가 에 대한 mutual information 을 추가해야 한다. 작은 모델에서는 가 plausible-but-wrong chain 을 생성하고, 이 hallucinated reasoning 에 conditioning 하면 entropy 가 오히려 증가한다.
PaLM 실험에서 CoT gain 이 나타나는 threshold 는 약 62B 파라미터다. 이 아래에서는 CoT 가 standard 보다 더 나쁘다.
이 emergence 가 metric artifact 인지 진짜 capability 변화인지를 둘러싼 논쟁이 Wei 2022 와 Schaeffer 2023 사이에 있다. Schaeffer 의 핵심 주장은 다음과 같다.
underlying capability 이 smooth power law 여도, 측정 metric 이 nonlinear 하면 은 급격한 jump 처럼 보인다. -step exact match 의 경우 이므로, 가 0.5 근방을 지날 때 는 수십 배 증가한다.
두 입장 모두 부분적으로 옳다. Metric artifact 는 실재하지만, GSM8K 와 MATH 에서는 log-likelihood metric 으로도 capability jump 가 robust 하다. Verifiable multi-step task 에서의 emergence 는 mirage 로 환원되지 않는다. 결론: reasoning capability 는 scale 에 strongly nonlinear 하고, metric 선택이 그 모양을 증폭한다.
Single Chain의 한계와 Self-Consistency
CoT 의 single chain sampling 은 이 expectation 의 single-sample estimator 다. Variance 가 크다. 같은 질문에 temperature > 0 으로 sampling 하면 매번 다른 chain, 다른 답이 나온다.
Self-Consistency 는 가장 단순한 해결책이다 — N 개 sample 의 majority vote.
single-sample correctness 이면:
, . Majority correct . Hoeffding inequality 에서 . Complement 를 취하면 성립.
이면 에서 수렴 확률이 사실상 1 에 도달한다. PaLM 540B 에서 greedy decoding 56.5% 가 Self-Consistency 으로 74.4% 가 된다.
그러나 조건이 있다. 여야만 올바른 답으로 수렴한다. 이면 wrong answer 로 수렴한다. 이것이 PRM 이 등장하는 동기다 — single sample 이 약한 모델에서도 step-level quality score 로 weighted aggregation 을 하면 더 나은 답을 고를 수 있다.
Inference Compute는 별도의 Scaling Axis다
Kaplan 2020 과 Hoffmann 2022 의 scaling law 는 training compute 라는 단일 축의 power law 였다. Snell 2024 는 여기에 두 번째 축을 추가한다.
task difficulty 에 따라 두 exponent 가 달라진다. 그리고 fixed total budget 에서 loss 를 최소화하는 optimal allocation 은 closed form 으로 구해진다.
easy task 는 train-favoring, hard task 는 inference-favoring 이다. MATH 수준의 어려운 문제에서는 inference compute 를 늘리는 것이 model size 를 늘리고 training token 을 늘리는 것과 동등한 효과를 낸다.
이는 deployment 의 경제적 구조를 바꾸는 발견이다.
query 수 가 커질수록 pretraining cost 는 amortize 되고, per-query inference cost 가 지배한다. 10억 query 를 처리하는 서비스는 small model + heavy inference 가 large model + greedy 보다 경제적으로 우월해지는 crossover 가 존재한다.
정리
- CoT 는 reasoning chain 를 explicit latent 로 노출한다. 이후의 모든 기법은 이 를 어떻게 샘플링하고 집계하고 평가할지의 변주다.
- Emergence 는 metric artifact 와 real capability jump 의 혼합이다. Verifiable multi-step task 에서의 jump 는 mirage 가 아니다.
- Self-Consistency 는 조건 하에 에 exponential 로 수렴한다. 영역이 PRM 과 step-level reward 의 존재 이유다.
- Inference compute 는 training compute 와 독립적인 scaling axis 다. Hard task 에서 optimal 은 inference-favoring 이고, 이것이 o1/o3/R1 의 이론적 토대다.
모든 reasoning 기법의 공통 구조는 결국 하나다 — 를 어디서 멈출지 결정하는 것.