AI 2026.05.03 · 13 min
Advanced Distributed Training Deep Dive · 7
분산 학습의 네 가지 축 — 3D Parallelism, MoE, Checkpoint, Elastic
70B+ 모델 학습에서 DP×TP×PP 그룹 분해부터 MoE all-to-all, 비동기 체크포인트, Elastic 회복 효율까지 — 분산 학습 시스템의 설계 원칙을 추적한다.
총 1개의 글
70B+ 모델 학습에서 DP×TP×PP 그룹 분해부터 MoE all-to-all, 비동기 체크포인트, Elastic 회복 효율까지 — 분산 학습 시스템의 설계 원칙을 추적한다.