深度学习 | Richelieu's Blog

本文档聚焦于 vLLM 中与 NVIDIA GPU 兼容的通用量化方法，排除了框架特定方案（GGUF、Compressed-Tensors、Quark、Hummingbird）和硬件厂商专有方案（ModelOpt、INC、NVFP4）。涵盖：数学原理、量化/反量化公式、位宽与分组结构、核心算法步骤、Kernel 级实现细节及硬件要求。目录 FP8 W8A8（动态/静态量化） AWQ（激活感知权重量化） GPTQ / Marlin AWQ Marlin BitsAndBytes（NF4 / QLoRA） MXFP4（OCP MX 规范） Online Quantization（在线量化） TurboQuant FP8 / INT8 KV Cache 对比总结 1. FP8 W8A8（动态/静态量化）论文 FP8 格式标准: FP8 Formats for Deep Learning (Micikevicius et al., 2022, arXiv:2209.05433) vLLM 实现: 主要面向 H100/H200 GPU，利用 torch._scaled_mm 调用 Tensor Core。概述 FP8 W8A8 将权重和激活均量化为 FP8 格式。支持两种调度模式：静态量化：校准集上预计算 scale，推理时固定。动态量化：推理时实时统计最大值计算 scale。量化公式 FP8 有两种指数位宽子格式：格式符号位指数位尾数位最大值最小值 E4M3 1 4 3 448 1/16 E5M2 1 5 2 57344 1/64 量化核心操作： ...