AI 2026.05.03 · 13 min
Advanced Llm Efficiency Deep Dive · 6
Flash Attention은 어떻게 T² 메모리 장벽을 넘었나
표준 Attention의 O(T²) HBM 병목의 수학적 근원부터 Flash Attention 1/2/3의 핵심 아이디어, 그리고 PagedAttention·Ring·Linear Attention까지, 효율적 Attention 설계의 전체 계보를 추적한다.