← all posts
AI 2026.05.03 · 10 min read Advanced

LLM 학습 규모는 어떻게 결정되는가

Kaplan의 power law부터 Chinchilla의 joint law, Broken Scaling Law, 그리고 scaling law의 본질적 한계까지 — LLM 사전학습의 수학적 의사결정을 추적한다.


LLM을 학습할 때 가장 먼저 결정해야 할 것은 모델 크기와 데이터 크기다. 직관이나 관습이 아니라 수학으로 이 결정을 내릴 수 있다면 어떨까? Kaplan et al. (2020)은 처음으로 이 질문에 power law로 답했고, Hoffmann et al. (2022)은 그 답을 뒤집었다. 두 논문이 정반대 결론에 도달한 이유는 무엇이고, 그 결론을 오늘의 LLM 개발에 어떻게 적용해야 하는가?

Power Law의 출발점

Kaplan 2020은 세 가지 독립적인 관계를 실증했다.

L(N)=aNNαN,L(D)=aDDαD,L(C)=aCCαCL(N) = a_N N^{-\alpha_N}, \quad L(D) = a_D D^{-\alpha_D}, \quad L(C) = a_C C^{-\alpha_C}

여기서 αN0.076\alpha_N \approx 0.076, αD0.161\alpha_D \approx 0.161, αC0.055\alpha_C \approx 0.055다. 핵심 직관은 exponent의 크기에 있다. αD>αN\alpha_D > \alpha_N이면, 데이터를 2배 늘릴 때 loss 감소폭이 모델을 2배 키울 때보다 크다 — 즉 데이터가 더 “민감”해 보인다. 하지만 Kaplan은 이를 반대로 해석했다.

compute budget C=6NDC = 6ND를 고정하고 loss를 최소화하면:

NCαDαN+αDC0.68,DCαNαN+αDC0.32N^* \propto C^{\frac{\alpha_D}{\alpha_N + \alpha_D}} \approx C^{0.68}, \quad D^* \propto C^{\frac{\alpha_N}{\alpha_N + \alpha_D}} \approx C^{0.32}

“모델 크기가 데이터보다 중요하다” — 이것이 Kaplan의 결론이었다.

Chinchilla의 반론: Joint Law

Kaplan의 세 power law는 각 축을 고정하고 하나만 변화시킨 관찰이다. Hoffmann 2022는 NNDD가 동시에 변하는 실제 학습 환경에 맞는 joint law를 제안했다.

L(N,D)=E+ANα+BDβL(N, D) = E + \frac{A}{N^\alpha} + \frac{B}{D^\beta}

E=1.69E = 1.69, A=406.4A = 406.4, B=410.7B = 410.7, α=0.34\alpha = 0.34, β=0.28\beta = 0.28. EE는 irreducible loss다 — N,DN, D \to \infty여도 줄어들지 않는 데이터 자체의 불확실성이다.

Gopher vs Chinchilla

같은 compute(1.4×1021\approx 1.4 \times 10^{21} FLOPs)로 학습한 두 모델의 결과: Gopher(280B params, 300B tokens) loss ≈ 2.50, Chinchilla(70B params, 1.4T tokens) loss ≈ 2.42. 파라미터를 4분의 1로 줄이고 데이터를 4.7배 늘렸더니 더 낮은 loss를 달성했다.

이 joint law에서 최적 비율은 Lagrangian으로 유도된다.

Lagrangian으로 최적 비율 유도

constrained optimization 문제는 다음과 같다.

minN,D[E+ANα+BDβ]s.t.6ND=C\min_{N, D} \left[ E + \frac{A}{N^\alpha} + \frac{B}{D^\beta} \right] \quad \text{s.t.} \quad 6ND = C
정리 1 · Compute-Optimal 비율

Chinchilla joint law 하에서, compute constraint 6ND=C6ND = C를 만족하는 최적 (N,D)(N^*, D^*)는 다음 비율을 만족한다.

ND=(αAβB)1α+β\frac{N^*}{D^*} = \left(\frac{\alpha A}{\beta B}\right)^{\frac{1}{\alpha + \beta}}
▷ 증명

Lagrangian L=L(N,D)+λ(6NDC)\mathcal{L} = L(N, D) + \lambda(6ND - C)의 KKT 조건:

LN=0αANα+1=6λD(1)\frac{\partial \mathcal{L}}{\partial N} = 0 \Rightarrow \frac{\alpha A}{N^{\alpha+1}} = 6\lambda D \quad \cdots (1)LD=0βBDβ+1=6λN(2)\frac{\partial \mathcal{L}}{\partial D} = 0 \Rightarrow \frac{\beta B}{D^{\beta+1}} = 6\lambda N \quad \cdots (2)

(1)÷(2)(1) \div (2):

αAβBDβNα=1NαDβ=αAβB\frac{\alpha A}{\beta B} \cdot \frac{D^\beta}{N^\alpha} = 1 \quad \Rightarrow \quad \frac{N^\alpha}{D^\beta} = \frac{\alpha A}{\beta B}

α=0.34\alpha = 0.34, β=0.28\beta = 0.28, A=406.4A = 406.4, B=410.7B = 410.7 대입:

ND=(0.34×406.40.28×410.7)1/0.620.887\frac{N^*}{D^*} = \left(\frac{0.34 \times 406.4}{0.28 \times 410.7}\right)^{1/0.62} \approx 0.887

D1.13ND^* \approx 1.13 N^* — 데이터가 모델보다 약 13% 많아야 한다. \square

Kaplan(NC0.73N \propto C^{0.73})과 Chinchilla(NDN \approx D 균등)의 결론이 정반대인 이유는 세 가지다: LR schedule 완료도(Kaplan은 cosine의 약 80%에서 중단), 파라미터 계산 방식(embedding 포함/제외), 데이터 반복 횟수. Hoffmann의 Appendix에서 Kaplan의 실험 설정을 그대로 재현하면 Kaplan의 결론이 나온다 — 즉, 이론적 모순이 아니라 재현성 문제였다.

Power Law가 깨지는 지점

Chinchilla의 smooth power law가 설명하지 못하는 현상이 있다. 모델 크기가 증가할 때 특정 능력이 갑자기 나타나는 것처럼 보이는 “emergent abilities”다. Caballero et al. (2022)의 Broken Neural Scaling Law(BNSL)는 이를 break point로 모델링한다.

L(x)=a+bxc0i=1k(1+(xdi)1/fi)cifiL(x) = a + b\, x^{-c_0} \prod_{i=1}^k \left(1 + \left(\frac{x}{d_i}\right)^{1/f_i}\right)^{-c_i f_i}

xdix \ll d_i일 때는 일반 power law처럼 동작하다가, xdix \approx d_i에서 추가적인 power law가 개입한다. 흥미로운 점은 loss curve 자체는 smooth해도, exact-match 같은 비선형 metric이 loss threshold를 통과하는 순간 성능이 계단식으로 뛰어 보인다는 것이다. Wei et al. (2022)가 관찰한 “갑작스러운 출현”의 상당 부분은 underlying loss가 아니라 측정 방식의 비선형성에서 온다.

트레이드오프: Scaling Law의 유효 범위

Scaling Law의 네 가지 한계
  1. 데이터 품질 무시: FineWeb-Edu(q1.8q \approx 1.8)는 standard web의 56% 토큰으로 같은 loss를 달성한다. Chinchilla law에는 품질 계수 qq가 없다.
  2. Architecture 의존성: Flash Attention은 effective compute를 약 30% 절감하고, MoE는 sparse activation으로 동일 파라미터 대비 더 낮은 loss를 달성한다. 아키텍처가 바뀌면 scaling law를 다시 측정해야 한다.
  3. Perplexity ≠ Downstream 성능: PPL과 MMLU의 상관관계 R20.92R^2 \approx 0.92이지만, GSM8K(reasoning)는 R20.48R^2 \approx 0.48에 불과하다.
  4. Test-time compute: o1/o3는 inference-time token을 늘릴수록 성능이 Tinfer0.04T_{\text{infer}}^{0.04}로 증가하는 새로운 scaling 축을 열었다. 이는 pretraining compute와 orthogonal하다.

현대 LLM은 Chinchilla-optimal을 훨씬 넘어서 over-train된다. LLaMA-3-70B는 15T 토큰으로 학습했다 — Chinchilla-optimal의 약 10배다. 이유는 단순하다: training은 한 번, inference는 수십억 번. 작은 모델을 더 많이 학습하면 inference cost가 줄어든다.

정리

  • Kaplan(2020)은 NC0.73N \propto C^{0.73}을 주장했지만, 이는 LR schedule 미완료와 데이터 반복 학습이라는 실험 설정의 산물이었다.
  • Chinchilla(2022)는 joint law L(N,D)=E+A/Nα+B/DβL(N, D) = E + A/N^\alpha + B/D^\betaNDN \approx D 균등 할당이 optimal임을 증명했다.
  • BNSL은 “emergent abilities”가 loss의 phase transition일 수도, metric의 비선형성일 수도 있음을 보인다.
  • Scaling law는 강력한 항법 도구지만, 데이터 품질·아키텍처 변화·downstream 성능·test-time compute라는 네 축은 법칙 밖에 있다.

Perplexity를 최소화하는 것과 좋은 LLM을 만드는 것은 같은 문제가 아니다.

REF
Hoffmann et al. · 2022 · Training Compute-Optimal Large Language Models · NeurIPS
REF
Kaplan et al. · 2020 · Scaling Laws for Neural Language Models · arXiv