tag

#learning-rate

총 4개의 글

AI 2026.05.03 · 11 min Advanced Llm Pretraining Deep Dive · 2

LLM 사전학습의 설계 결정들은 어디서 오는가

C ≈ 6ND 유도부터 over-training의 경제학, μP의 width transfer, GNS 기반 배치 스케줄, WSD까지 — LLM 사전학습의 핵심 설계 결정을 하나의 프레임으로 추적한다.

AI 2026.04.28 · 13 min Advanced Optimization Theory Deep Dive · 2

SGD는 왜 수렴하는가 — Robbins–Monro부터 Implicit Regularization까지

학습률 스케줄의 수학적 근거인 Robbins–Monro 조건부터 SGD noise가 flat minima를 선호하는 이유까지, 딥러닝 최적화의 이론적 토대를 추적한다.

AI 2026.04.28 · 13 min Advanced Optimization Theory Deep Dive · 6

LR 스케줄링의 통일 원리 — 왜 하나의 철학으로 수렴하는가

고정 LR의 O(1/T) 보장부터 warmup의 curvature 안정화, cosine+warm restart의 local minimum 탐색, One-Cycle의 super-convergence까지, 현대 LR 스케줄링 전체를 관통하는 설계 원리를 추적한다.

AI 2026.04.27 · 12 min Advanced Transformer Deep Dive · 4

Transformer 훈련을 가능하게 하는 다섯 가지 설계 결정

Warmup 스케줄의 이론적 정당성부터 AdamW의 분리된 weight decay, label smoothing의 calibration 효과, gradient accumulation의 선형 스케일링 법칙, BF16 mixed precision까지 — 현대 LLM 훈련 레시피의 공통 철학을 추적한다.