<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>深度学习 on Richelieu's Blog</title><link>https://beaiera.top/tags/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0/</link><description>Recent content in 深度学习 on Richelieu's Blog</description><generator>Hugo</generator><language>zh-cn</language><lastBuildDate>Mon, 01 Jun 2026 09:00:00 +0800</lastBuildDate><atom:link href="https://beaiera.top/tags/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0/index.xml" rel="self" type="application/rss+xml"/><item><title>vLLM 量化方法详解：原理、算法与实现</title><link>https://beaiera.top/posts/vllm-quantization-methods/</link><pubDate>Mon, 01 Jun 2026 09:00:00 +0800</pubDate><guid>https://beaiera.top/posts/vllm-quantization-methods/</guid><description>&lt;blockquote&gt;
&lt;p&gt;本文档聚焦于 vLLM 中与 NVIDIA GPU 兼容的通用量化方法，排除了框架特定方案（GGUF、Compressed-Tensors、Quark、Hummingbird）和硬件厂商专有方案（ModelOpt、INC、NVFP4）。涵盖：数学原理、量化/反量化公式、位宽与分组结构、核心算法步骤、Kernel 级实现细节及硬件要求。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;hr&gt;
&lt;h2 id="目录"&gt;目录&lt;/h2&gt;
&lt;ol&gt;
&lt;li&gt;&lt;a href="#1-fp8-w8a8%E5%8A%A8%E6%80%81%E9%9D%99%E6%80%81%E9%87%8F%E5%8C%96"&gt;FP8 W8A8（动态/静态量化）&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href="#2-awq%E6%BF%80%E6%B4%BB%E6%84%9F%E7%9F%A5%E6%9D%83%E9%87%8D%E9%87%8F%E5%8C%96"&gt;AWQ（激活感知权重量化）&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href="#3-gptq--marlin"&gt;GPTQ / Marlin&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href="#4-awq-marlin"&gt;AWQ Marlin&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href="#5-bitsandbytesnf4--qlora"&gt;BitsAndBytes（NF4 / QLoRA）&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href="#6-mxfp4ocp-mx-%E8%A7%84%E8%8C%83"&gt;MXFP4（OCP MX 规范）&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href="#7-online-quantization%E5%9C%A8%E7%BA%BF%E9%87%8F%E5%8C%96"&gt;Online Quantization（在线量化）&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href="#8-turboquant"&gt;TurboQuant&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href="#9-fp8--int8-kv-cache"&gt;FP8 / INT8 KV Cache&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href="#10-%E5%AF%B9%E6%AF%94%E6%80%BB%E7%BB%93"&gt;对比总结&lt;/a&gt;&lt;/li&gt;
&lt;/ol&gt;
&lt;hr&gt;
&lt;h2 id="1-fp8-w8a8动态静态量化"&gt;1. FP8 W8A8（动态/静态量化）&lt;/h2&gt;
&lt;h3 id="论文"&gt;论文&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;FP8 格式标准&lt;/strong&gt;: &lt;em&gt;FP8 Formats for Deep Learning&lt;/em&gt; (Micikevicius et al., 2022, arXiv:2209.05433)&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;vLLM 实现&lt;/strong&gt;: 主要面向 H100/H200 GPU，利用 &lt;code&gt;torch._scaled_mm&lt;/code&gt; 调用 Tensor Core。&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id="概述"&gt;概述&lt;/h3&gt;
&lt;p&gt;FP8 W8A8 将权重和激活均量化为 FP8 格式。支持两种调度模式：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;静态量化&lt;/strong&gt;：校准集上预计算 scale，推理时固定。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;动态量化&lt;/strong&gt;：推理时实时统计最大值计算 scale。&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id="量化公式"&gt;量化公式&lt;/h3&gt;
&lt;p&gt;FP8 有两种指数位宽子格式：&lt;/p&gt;
&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;格式&lt;/th&gt;
&lt;th&gt;符号位&lt;/th&gt;
&lt;th&gt;指数位&lt;/th&gt;
&lt;th&gt;尾数位&lt;/th&gt;
&lt;th&gt;最大值&lt;/th&gt;
&lt;th&gt;最小值&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;E4M3&lt;/td&gt;
&lt;td&gt;1&lt;/td&gt;
&lt;td&gt;4&lt;/td&gt;
&lt;td&gt;3&lt;/td&gt;
&lt;td&gt;448&lt;/td&gt;
&lt;td&gt;1/16&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;E5M2&lt;/td&gt;
&lt;td&gt;1&lt;/td&gt;
&lt;td&gt;5&lt;/td&gt;
&lt;td&gt;2&lt;/td&gt;
&lt;td&gt;57344&lt;/td&gt;
&lt;td&gt;1/64&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;量化核心操作：&lt;/p&gt;</description></item></channel></rss>