tag

#data-parallelism

총 2개의 글

AI 2026.05.03 · 11 min Advanced Distributed Training Deep Dive · 2

Gradient averaging의 linearity 증명부터 critical batch size, async staleness의 수렴 조건까지, 분산 학습 Data Parallelism의 수학적 토대를 추적한다.

AI 2026.05.03 · 11 min Advanced Distributed Training Deep Dive · 5

DDP의 16ψ 메모리 병목에서 출발해 ZeRO-1/2/3와 FSDP의 설계 결정까지, per-GPU 메모리를 1/N로 줄이는 원리를 추적한다.