深度学习 on Richelieu's Blog

vLLM 量化方法详解：原理、算法与实现

Mon, 01 Jun 2026 09:00:00 +0800

本文档聚焦于 vLLM 中与 NVIDIA GPU 兼容的通用量化方法，排除了框架特定方案（GGUF、Compressed-Tensors、Quark、Hummingbird）和硬件厂商专有方案（ModelOpt、INC、NVFP4）。涵盖：数学原理、量化/反量化公式、位宽与分组结构、核心算法步骤、Kernel 级实现细节及硬件要求。

目录

FP8 W8A8（动态/静态量化）
AWQ（激活感知权重量化）
GPTQ / Marlin
AWQ Marlin
BitsAndBytes（NF4 / QLoRA）
MXFP4（OCP MX 规范）
Online Quantization（在线量化）
TurboQuant
FP8 / INT8 KV Cache
对比总结

1. FP8 W8A8（动态/静态量化）

论文

FP8 格式标准: FP8 Formats for Deep Learning (Micikevicius et al., 2022, arXiv:2209.05433)
vLLM 实现: 主要面向 H100/H200 GPU，利用 torch._scaled_mm 调用 Tensor Core。

概述

FP8 W8A8 将权重和激活均量化为 FP8 格式。支持两种调度模式：

静态量化：校准集上预计算 scale，推理时固定。
动态量化：推理时实时统计最大值计算 scale。

量化公式

FP8 有两种指数位宽子格式：

格式	符号位	指数位	尾数位	最大值	最小值
E4M3	1	4	3	448	1/16
E5M2	1	5	2	57344	1/64

量化核心操作：