AI 2026.05.03 · 11 min
Advanced Llm Inference Deep Dive · 7
LLM Serving의 모든 선택은 결국 비용-지연 트레이드오프다
vLLM·TGI·TensorRT-LLM·SGLang의 메모리 전략부터 Tensor/Pipeline Parallel 배포 패턴, TTFT·Goodput 측정, Disaggregated Serving 절감까지 — LLM 추론 시스템의 설계 철학을 추적한다.