vLLM 量化方法详解:原理、算法与实现

本文档聚焦于 vLLM 中与 NVIDIA GPU 兼容的通用量化方法,排除了框架特定方案(GGUF、Compressed-Tensors、Quark、Hummingbird)和硬件厂商专有方案(ModelOpt、INC、NVFP4)。涵盖:数学原理、量化/反量化公式、位宽与分组结构、核心算法步骤、Kernel 级实现细节及硬件要求。 目录 FP8 W8A8(动态/静态量化) AWQ(激活感知权重量化) GPTQ / Marlin AWQ Marlin BitsAndBytes(NF4 / QLoRA) MXFP4(OCP MX 规范) Online Quantization(在线量化) TurboQuant FP8 / INT8 KV Cache 对比总结 1. FP8 W8A8(动态/静态量化) 论文 FP8 格式标准: FP8 Formats for Deep Learning (Micikevicius et al., 2022, arXiv:2209.05433) vLLM 实现: 主要面向 H100/H200 GPU,利用 torch._scaled_mm 调用 Tensor Core。 概述 FP8 W8A8 将权重和激活均量化为 FP8 格式。支持两种调度模式: 静态量化:校准集上预计算 scale,推理时固定。 动态量化:推理时实时统计最大值计算 scale。 量化公式 FP8 有两种指数位宽子格式: 格式 符号位 指数位 尾数位 最大值 最小值 E4M3 1 4 3 448 1/16 E5M2 1 5 2 57344 1/64 量化核心操作: ...

June 1, 2026 · 11 min · 2171 words