AI 2026.05.03 · 12 min
Advanced Llm Inference Deep Dive · 1
LLM 추론은 왜 두 개의 다른 병목을 가지는가
Prefill의 compute-bound와 decode의 memory-bound가 같은 모델에서 공존하는 이유부터 Roofline 분석과 batch 최적화의 한계까지, LLM 서빙의 물리적 제약을 추적한다.
총 1개의 글
Prefill의 compute-bound와 decode의 memory-bound가 같은 모델에서 공존하는 이유부터 Roofline 분석과 batch 최적화의 한계까지, LLM 서빙의 물리적 제약을 추적한다.