AI 2026.05.03 · 11 min
Advanced Distributed Training Deep Dive · 6
Transformer 학습에서 Activation Memory는 왜 폭발하는가
Forward pass 활성화 메모리의 수학적 분해부터 Gradient Checkpointing, Selective Recomputation, Sequence Parallelism까지 — 대규모 모델 학습의 메모리 병목을 추적한다.