LLM 학습 규모는 어떻게 결정되는가
Kaplan의 power law부터 Chinchilla의 joint law, Broken Scaling Law, 그리고 scaling law의 본질적 한계까지 — LLM 사전학습의 수학적 의사결정을 추적한다.
- 01 LLM 학습 규모는 어떻게 결정되는가
- 02 LLM 사전학습의 설계 결정들은 어디서 오는가
- 03 LLM 사전학습이 불안정한 이유는 하나다
- 04 LLM 사전학습 데이터는 어떻게 설계되는가
- 05 토큰화는 왜 모델의 성능을 결정하는가
- 06 LLM 아키텍처 설계의 다섯 가지 선택
LLM을 학습할 때 가장 먼저 결정해야 할 것은 모델 크기와 데이터 크기다. 직관이나 관습이 아니라 수학으로 이 결정을 내릴 수 있다면 어떨까? Kaplan et al. (2020)은 처음으로 이 질문에 power law로 답했고, Hoffmann et al. (2022)은 그 답을 뒤집었다. 두 논문이 정반대 결론에 도달한 이유는 무엇이고, 그 결론을 오늘의 LLM 개발에 어떻게 적용해야 하는가?
Power Law의 출발점
Kaplan 2020은 세 가지 독립적인 관계를 실증했다.
여기서 , , 다. 핵심 직관은 exponent의 크기에 있다. 이면, 데이터를 2배 늘릴 때 loss 감소폭이 모델을 2배 키울 때보다 크다 — 즉 데이터가 더 “민감”해 보인다. 하지만 Kaplan은 이를 반대로 해석했다.
compute budget 를 고정하고 loss를 최소화하면:
“모델 크기가 데이터보다 중요하다” — 이것이 Kaplan의 결론이었다.
Chinchilla의 반론: Joint Law
Kaplan의 세 power law는 각 축을 고정하고 하나만 변화시킨 관찰이다. Hoffmann 2022는 과 가 동시에 변하는 실제 학습 환경에 맞는 joint law를 제안했다.
, , , , . 는 irreducible loss다 — 여도 줄어들지 않는 데이터 자체의 불확실성이다.
같은 compute( FLOPs)로 학습한 두 모델의 결과: Gopher(280B params, 300B tokens) loss ≈ 2.50, Chinchilla(70B params, 1.4T tokens) loss ≈ 2.42. 파라미터를 4분의 1로 줄이고 데이터를 4.7배 늘렸더니 더 낮은 loss를 달성했다.
이 joint law에서 최적 비율은 Lagrangian으로 유도된다.
Lagrangian으로 최적 비율 유도
constrained optimization 문제는 다음과 같다.
Chinchilla joint law 하에서, compute constraint 를 만족하는 최적 는 다음 비율을 만족한다.
Lagrangian 의 KKT 조건:
:
, , , 대입:
즉 — 데이터가 모델보다 약 13% 많아야 한다.
Kaplan()과 Chinchilla( 균등)의 결론이 정반대인 이유는 세 가지다: LR schedule 완료도(Kaplan은 cosine의 약 80%에서 중단), 파라미터 계산 방식(embedding 포함/제외), 데이터 반복 횟수. Hoffmann의 Appendix에서 Kaplan의 실험 설정을 그대로 재현하면 Kaplan의 결론이 나온다 — 즉, 이론적 모순이 아니라 재현성 문제였다.
Power Law가 깨지는 지점
Chinchilla의 smooth power law가 설명하지 못하는 현상이 있다. 모델 크기가 증가할 때 특정 능력이 갑자기 나타나는 것처럼 보이는 “emergent abilities”다. Caballero et al. (2022)의 Broken Neural Scaling Law(BNSL)는 이를 break point로 모델링한다.
일 때는 일반 power law처럼 동작하다가, 에서 추가적인 power law가 개입한다. 흥미로운 점은 loss curve 자체는 smooth해도, exact-match 같은 비선형 metric이 loss threshold를 통과하는 순간 성능이 계단식으로 뛰어 보인다는 것이다. Wei et al. (2022)가 관찰한 “갑작스러운 출현”의 상당 부분은 underlying loss가 아니라 측정 방식의 비선형성에서 온다.
트레이드오프: Scaling Law의 유효 범위
- 데이터 품질 무시: FineWeb-Edu()는 standard web의 56% 토큰으로 같은 loss를 달성한다. Chinchilla law에는 품질 계수 가 없다.
- Architecture 의존성: Flash Attention은 effective compute를 약 30% 절감하고, MoE는 sparse activation으로 동일 파라미터 대비 더 낮은 loss를 달성한다. 아키텍처가 바뀌면 scaling law를 다시 측정해야 한다.
- Perplexity ≠ Downstream 성능: PPL과 MMLU의 상관관계 이지만, GSM8K(reasoning)는 에 불과하다.
- Test-time compute: o1/o3는 inference-time token을 늘릴수록 성능이 로 증가하는 새로운 scaling 축을 열었다. 이는 pretraining compute와 orthogonal하다.
현대 LLM은 Chinchilla-optimal을 훨씬 넘어서 over-train된다. LLaMA-3-70B는 15T 토큰으로 학습했다 — Chinchilla-optimal의 약 10배다. 이유는 단순하다: training은 한 번, inference는 수십억 번. 작은 모델을 더 많이 학습하면 inference cost가 줄어든다.
정리
- Kaplan(2020)은 을 주장했지만, 이는 LR schedule 미완료와 데이터 반복 학습이라는 실험 설정의 산물이었다.
- Chinchilla(2022)는 joint law 로 균등 할당이 optimal임을 증명했다.
- BNSL은 “emergent abilities”가 loss의 phase transition일 수도, metric의 비선형성일 수도 있음을 보인다.
- Scaling law는 강력한 항법 도구지만, 데이터 품질·아키텍처 변화·downstream 성능·test-time compute라는 네 축은 법칙 밖에 있다.
Perplexity를 최소화하는 것과 좋은 LLM을 만드는 것은 같은 문제가 아니다.