AI 2026.05.03 · 10 min
Advanced Llm Pretraining Deep Dive · 1
LLM 학습 규모는 어떻게 결정되는가
Kaplan의 power law부터 Chinchilla의 joint law, Broken Scaling Law, 그리고 scaling law의 본질적 한계까지 — LLM 사전학습의 수학적 의사결정을 추적한다.
총 2개의 글
Kaplan의 power law부터 Chinchilla의 joint law, Broken Scaling Law, 그리고 scaling law의 본질적 한계까지 — LLM 사전학습의 수학적 의사결정을 추적한다.
Chinchilla compute-optimal ratio의 수학적 유도부터 Broken Scaling Law, Emergent Abilities 논쟁, ICL의 implicit gradient descent 이론까지, LLM 스케일링의 예측 가능성을 추적한다.