AI 2026.05.03 · 12 min
Advanced Distributed Training Deep Dive · 1
분산 학습의 통신은 왜 전부 AllReduce로 귀결되는가
Broadcast부터 Ring AllReduce의 bandwidth-optimal 증명까지, 분산 학습 multi-GPU 통신의 6가지 collective operation과 NCCL 토폴로지 선택 원리를 추적한다.
총 1개의 글
Broadcast부터 Ring AllReduce의 bandwidth-optimal 증명까지, 분산 학습 multi-GPU 통신의 6가지 collective operation과 NCCL 토폴로지 선택 원리를 추적한다.