AI 2026.05.03 · 10 min
Advanced Llm Inference Deep Dive · 6
Long Context LLM — 두 개의 완전히 다른 문제
Prefill의 O(L²) 계산 폭발과 Decode의 KV 메모리 누적이 왜 별개의 병목인지, StreamingLLM·YaRN·Ring Attention이 각각 어느 문제를 해결하는지 추적한다.
총 1개의 글
Prefill의 O(L²) 계산 폭발과 Decode의 KV 메모리 누적이 왜 별개의 병목인지, StreamingLLM·YaRN·Ring Attention이 각각 어느 문제를 해결하는지 추적한다.