← all posts
AI 2026.05.05 · 11 min read Advanced

LLM Reasoning의 모든 기법은 하나의 질문에서 나온다

CoT의 latent variable 정식화부터 inference-time scaling law까지, reasoning chain z를 어떻게 다룰 것인가라는 공통 프레임을 추적한다.


Self-Consistency, Tree-of-Thought, PRM, GRPO — LLM reasoning 의 모든 기법은 표면적으로 각자 다른 문제를 해결하는 것처럼 보인다. 그러나 파고들면 동일한 질문으로 수렴한다. reasoning chain zz 를 어떻게 다룰 것인가. CoT 가 zz 를 latent variable 로 노출하는 순간, 이후의 모든 기법은 그 zz 를 샘플링하고, 집계하고, 평가하는 방법의 변주다. 이 구조가 왜 작은 모델에서는 해롭고, 큰 모델에서는 추론 성능을 폭발시키며, 결국 새로운 경제적 패러다임까지 만들어내는가?

CoT는 무엇을 바꾸었나

Standard prompting 은 yP(yx)y \sim P(y \mid x) 다. 모델이 입력 xx 에서 답 yy 로 바로 매핑한다. reasoning 은 모델 내부 hidden state 에 묻혀 있고, 사용자는 그 경로를 볼 수 없다.

Chain-of-Thought 는 이 구조를 바꾼다.

P(yx)  =  zP(yz,x)P(zx)P(y \mid x) \;=\; \sum_z P(y \mid z, x)\, P(z \mid x)

reasoning chain zz 를 explicit latent variable 로 surface text 에 끌어올린다. 실제 sampling 은 marginalize 하지 않고 single chain 을 뽑는다.

zP(zx;θ),yP(yz,x;θ)z \sim P(z \mid x;\,\theta), \quad y \sim P(y \mid z, x;\,\theta)

이 한 줄의 차이가 모든 것을 만든다. 모델이 자신이 생성한 reasoning 을 attend 할 수 있게 되고, test-time compute 가 품질에 기여하기 시작하며, 이후의 모든 기법이 이 zz 를 어떻게 가공할지를 고민하는 문제로 환원된다.

Zero-shot CoT 는 이 변화의 극단을 보여준다. “Let’s think step by step” 단 여섯 단어가 InstructGPT 의 GSM8K 정확도를 17.7% 에서 78.7% 로 끌어올린다. reasoning capacity 는 모델 안에 이미 있었고, trigger 만 필요했다.

Emergence — 왜 작은 모델에서는 해로운가

CoT 가 모든 모델에 도움이 되는 것은 아니다. 이것이 가장 중요한 실증적 발견이다.

명제 1 · Small Model에서 CoT의 역효과

모델이 충분히 크지 않으면 P(zx;θ)P(z \mid x;\,\theta) 가 부정확한 reasoning chain 을 생성한다. 틀린 zz 에 conditioning 하면 오히려 H(YX,Z)>H(YX)H(Y \mid X, Z) > H(Y \mid X) 가 되어 standard prompting 보다 성능이 낮아진다.

▷ 증명

CoT 가 효과적이려면 I(Y;ZX)>0I(Y;\,Z \mid X) > 0 이어야 한다 — zzyy 에 대한 mutual information 을 추가해야 한다. 작은 모델에서는 P(zx)P(z \mid x) 가 plausible-but-wrong chain 을 생성하고, 이 hallucinated reasoning 에 conditioning 하면 entropy 가 오히려 증가한다. \square

PaLM 실험에서 CoT gain 이 나타나는 threshold 는 약 62B 파라미터다. 이 아래에서는 CoT 가 standard 보다 더 나쁘다.

이 emergence 가 metric artifact 인지 진짜 capability 변화인지를 둘러싼 논쟁이 Wei 2022 와 Schaeffer 2023 사이에 있다. Schaeffer 의 핵심 주장은 다음과 같다.

S(N)  =  M(C(N))S(N) \;=\; M(C(N))

underlying capability C(N)C(N) 이 smooth power law 여도, 측정 metric MM 이 nonlinear 하면 S(N)S(N) 은 급격한 jump 처럼 보인다. kk-step exact match 의 경우 S=CkS = C^k 이므로, CC 가 0.5 근방을 지날 때 SS 는 수십 배 증가한다.

논쟁의 통합적 해석

두 입장 모두 부분적으로 옳다. Metric artifact 는 실재하지만, GSM8K 와 MATH 에서는 log-likelihood metric 으로도 capability jump 가 robust 하다. Verifiable multi-step task 에서의 emergence 는 mirage 로 환원되지 않는다. 결론: reasoning capability 는 scale 에 strongly nonlinear 하고, metric 선택이 그 모양을 증폭한다.

Single Chain의 한계와 Self-Consistency

CoT 의 single chain sampling 은 이 expectation 의 single-sample estimator 다. Variance 가 크다. 같은 질문에 temperature > 0 으로 sampling 하면 매번 다른 chain, 다른 답이 나온다.

Self-Consistency 는 가장 단순한 해결책이다 — N 개 sample 의 majority vote.

정리 2 · Majority Vote 수렴 (Hoeffding)

single-sample correctness p>0.5p > 0.5 이면:

P(majority correct)    1exp(2N(p0.5)2)    1P(\text{majority correct}) \;\geq\; 1 - \exp\bigl(-2N(p - 0.5)^2\bigr) \;\to\; 1
▷ 증명

K=i=1NXiK = \sum_{i=1}^N X_i, XiBernoulli(p)X_i \sim \text{Bernoulli}(p). Majority correct     Xˉ=K/N>0.5\iff \bar{X} = K/N > 0.5. Hoeffding inequality 에서 P(Xˉ0.5)exp(2N(p0.5)2)P(\bar{X} \leq 0.5) \leq \exp(-2N(p-0.5)^2). Complement 를 취하면 성립. \square

p=0.6p = 0.6 이면 N=40N = 40 에서 수렴 확률이 사실상 1 에 도달한다. PaLM 540B 에서 greedy decoding 56.5% 가 Self-Consistency N=40N = 40 으로 74.4% 가 된다.

그러나 조건이 있다. p>0.5p > 0.5 여야만 올바른 답으로 수렴한다. p<0.5p < 0.5 이면 wrong answer 로 수렴한다. 이것이 PRM 이 등장하는 동기다 — single sample 이 약한 모델에서도 step-level quality score 로 weighted aggregation 을 하면 더 나은 답을 고를 수 있다.

Inference Compute는 별도의 Scaling Axis다

Kaplan 2020 과 Hoffmann 2022 의 scaling law 는 training compute 라는 단일 축의 power law 였다. Snell 2024 는 여기에 두 번째 축을 추가한다.

logL  =  α1(d)logCtrain    α2(d)logCinference  +  c(d)\log L \;=\; -\alpha_1(d)\,\log C_{\mathrm{train}} \;-\; \alpha_2(d)\,\log C_{\mathrm{inference}} \;+\; c(d)

task difficulty dd 에 따라 두 exponent 가 달라진다. 그리고 fixed total budget BB 에서 loss 를 최소화하는 optimal allocation 은 closed form 으로 구해진다.

CtrainCinference  =  α1(d)α2(d)\frac{C_{\mathrm{train}}^*}{C_{\mathrm{inference}}^*} \;=\; \frac{\alpha_1(d)}{\alpha_2(d)}

easy task 는 train-favoring, hard task 는 inference-favoring 이다. MATH 수준의 어려운 문제에서는 inference compute 를 10×10\times 늘리는 것이 model size 를 10×\sqrt{10}\times 늘리고 training token 을 10×\sqrt{10}\times 늘리는 것과 동등한 효과를 낸다.

이는 deployment 의 경제적 구조를 바꾸는 발견이다.

TCO (per query)  =  CpretrainQ  +  Cinference  Q  Cinference\text{TCO (per query)} \;=\; \frac{C_{\mathrm{pretrain}}}{Q} \;+\; C_{\mathrm{inference}} \;\xrightarrow{Q \to \infty}\; C_{\mathrm{inference}}

query 수 QQ 가 커질수록 pretraining cost 는 amortize 되고, per-query inference cost 가 지배한다. 10억 query 를 처리하는 서비스는 small model + heavy inference 가 large model + greedy 보다 경제적으로 우월해지는 crossover 가 존재한다.

정리

  • CoT 는 reasoning chain zz 를 explicit latent 로 노출한다. 이후의 모든 기법은 이 zz 를 어떻게 샘플링하고 집계하고 평가할지의 변주다.
  • Emergence 는 metric artifact 와 real capability jump 의 혼합이다. Verifiable multi-step task 에서의 jump 는 mirage 가 아니다.
  • Self-Consistency 는 p>0.5p > 0.5 조건 하에 NN 에 exponential 로 수렴한다. p<0.5p < 0.5 영역이 PRM 과 step-level reward 의 존재 이유다.
  • Inference compute 는 training compute 와 독립적인 scaling axis 다. Hard task 에서 optimal 은 inference-favoring 이고, 이것이 o1/o3/R1 의 이론적 토대다.

모든 reasoning 기법의 공통 구조는 결국 하나다 — zz 를 어디서 멈출지 결정하는 것.