#gqa · IQ Lab

AI 2026.05.03 · 10 min Advanced Llm Inference Deep Dive · 2

Naive autoregressive decoding의 O(T²) 재계산 문제부터 GQA와 KVQuant를 거쳐 실제 서빙 메모리 예산까지, KV cache 최적화의 연쇄적 설계 결정을 추적한다.