tag

#adamw

총 2개의 글

AI 2026.05.03 · 12 min Advanced Llm Pretraining Deep Dive · 3

LLM 사전학습이 불안정한 이유는 하나다

Loss spike의 4가지 근인부터 Embedding LR 분리, QK-norm, z-loss, RMSNorm, AdamW ε까지 — LLM 훈련 안정화 기법들이 공유하는 하나의 진단 프레임을 추적한다.

AI 2026.04.28 · 12 min Advanced Regularization Theory Deep Dive · 7

Regularization의 4축 — 33개 기법을 하나의 틀로

SWA의 iterate 평균부터 SAM의 worst-case minimax, AdamW의 decoupled weight decay까지, 현대 regularization 기법들이 Prior·Ensemble·Landscape·Invariance 4축 위에서 어떻게 통합되는지 추적한다.