AI 2026.05.03 · 11 min
Advanced Distributed Training Deep Dive · 2
Data Parallelism의 수학 — AllReduce는 왜 정확한가
Gradient averaging의 linearity 증명부터 critical batch size, async staleness의 수렴 조건까지, 분산 학습 Data Parallelism의 수학적 토대를 추적한다.
총 1개의 글
Gradient averaging의 linearity 증명부터 critical batch size, async staleness의 수렴 조건까지, 분산 학습 Data Parallelism의 수학적 토대를 추적한다.