#batch-size-scaling

AI 2026.05.03 · 11 min Advanced Distributed Training Deep Dive · 2

Gradient averaging의 linearity 증명부터 critical batch size, async staleness의 수렴 조건까지, 분산 학습 Data Parallelism의 수학적 토대를 추적한다.