tag

#gptq

총 2개의 글

AI 2026.05.05 · 12 min Advanced LLM Efficiency Deep Dive · 3

Quantization 오차의 수학적 구조부터 LLM.int8()·GPTQ·AWQ·SmoothQuant·NF4까지, 각 기법이 공유하는 하나의 설계 원칙을 추적한다.

AI 2026.05.03 · 11 min Advanced Efficient Ml Deep Dive · 3

INT8부터 BitNet 1.58-bit까지, scale·granularity·calibration의 세 가지 선택이 어떻게 quantization accuracy의 Pareto frontier를 결정하는지 추적한다.