AI 2026.05.03 · 11 min
Advanced Efficient Ml Deep Dive · 1
모델 효율화의 4축 — Memory, Compute, Latency, Throughput
Efficient ML의 모든 기법을 관통하는 4가지 축의 정의부터 Roofline model, 압축 분류의 직교성, 그리고 알고리즘 압축률과 wall-clock speedup의 괴리까지 추적한다.
총 2개의 글
Efficient ML의 모든 기법을 관통하는 4가지 축의 정의부터 Roofline model, 압축 분류의 직교성, 그리고 알고리즘 압축률과 wall-clock speedup의 괴리까지 추적한다.
INT8부터 BitNet 1.58-bit까지, scale·granularity·calibration의 세 가지 선택이 어떻게 quantization accuracy의 Pareto frontier를 결정하는지 추적한다.