#sequence-parallelism

AI 2026.05.03 · 11 min Advanced Distributed Training Deep Dive · 6

Forward pass 활성화 메모리의 수학적 분해부터 Gradient Checkpointing, Selective Recomputation, Sequence Parallelism까지 — 대규모 모델 학습의 메모리 병목을 추적한다.