<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>量化 on Richelieu's Blog</title><link>https://beaiera.top/tags/%E9%87%8F%E5%8C%96/</link><description>Recent content in 量化 on Richelieu's Blog</description><generator>Hugo</generator><language>zh-cn</language><lastBuildDate>Tue, 02 Jun 2026 00:00:00 +0800</lastBuildDate><atom:link href="https://beaiera.top/tags/%E9%87%8F%E5%8C%96/index.xml" rel="self" type="application/rss+xml"/><item><title>DeepSeek V4 MoE 量化技术详解</title><link>https://beaiera.top/posts/2026-06-02-deepseek-v4-moe-quantization/</link><pubDate>Tue, 02 Jun 2026 00:00:00 +0800</pubDate><guid>https://beaiera.top/posts/2026-06-02-deepseek-v4-moe-quantization/</guid><description>&lt;h2 id="前言"&gt;前言&lt;/h2&gt;
&lt;p&gt;本文整理自一次围绕 vLLM 代码库中 DeepSeek V4 MoE 模块的技术讨论，内容涉及 MXFP4 与 NVFP4 的量化方案对比、Block Quantized GEMM 的设计原理、FP4 packed 存储格式、以及 DeepGEMM 库中 FP8×FP4 在 Blackwell 硬件上的具体实现。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="一deepseek-v4-moe-核心优化概览"&gt;一、DeepSeek V4 MoE 核心优化概览&lt;/h2&gt;
&lt;p&gt;DeepSeek V4 的 MoE 模块在 vLLM 中的实现包含了大量优化：&lt;/p&gt;
&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;优化&lt;/th&gt;
&lt;th&gt;说明&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;DeepGEMM MegaMoE&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;融合 EP dispatch + L1 GEMM + SwiGLU + L2 GEMM + EP combine 为单 mega-kernel，NVLink 通信与计算重叠&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;FP4 (MXFP4/NVFP4) 权重量化&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;4-bit 浮点权重 + UE8M0 block scale&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;Expert Parallelism 多后端&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;DeepEP、FlashInfer NVLink、MORI、NIXL 等多种 all-to-all 策略&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;Fused TopK Bias Routing&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;sqrt(softplus) 得分函数、e_score_correction_bias、hash MoE&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;EPLB&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;每层跟踪 expert 负载，动态重新分配&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;Fused MLA Kernel&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;Q-norm + RoPE + KV quant + cache insert 融合为单 CUDA 核&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;MTP (Multi-Token Prediction)&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;共享 MoE 架构的 speculative decoding&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;hr&gt;
&lt;h2 id="二mxfp4-与-nvfp4-的区别"&gt;二、MXFP4 与 NVFP4 的区别&lt;/h2&gt;
&lt;p&gt;DeepSeek V4 Flash 使用 FP4 权重，有两个可选方案：&lt;strong&gt;MXFP4&lt;/strong&gt; (OCP 开放标准) 和 &lt;strong&gt;NVFP4&lt;/strong&gt; (NVIDIA 私有格式)。切换由 HuggingFace config 中的 &lt;code&gt;moe_quant_algo&lt;/code&gt; 字段控制。&lt;/p&gt;</description></item><item><title>vLLM SP/AsyncTP/Quant 技术笔记</title><link>https://beaiera.top/posts/2026-06-02-vllm-sp-asynctp-quant-tech-notes/</link><pubDate>Tue, 02 Jun 2026 00:00:00 +0800</pubDate><guid>https://beaiera.top/posts/2026-06-02-vllm-sp-asynctp-quant-tech-notes/</guid><description>&lt;h2 id="背景"&gt;背景&lt;/h2&gt;
&lt;p&gt;vLLM 中实现了多种并行策略与编译优化。本文聚焦三条密切关联的技术线：&lt;strong&gt;Sequence Parallelism (SP)&lt;/strong&gt;、&lt;strong&gt;Async Tensor Parallelism (AsyncTP)&lt;/strong&gt; 与 &lt;strong&gt;量化 (Quantization)&lt;/strong&gt; 的协同工作方式，涵盖概念辨析、GEMM-通信融合原理、量化感知改写以及配置细节。&lt;/p&gt;</description></item><item><title>vLLM TurboQuant 介绍：极低比特 KV Cache 量化</title><link>https://beaiera.top/posts/turboquant-intro/</link><pubDate>Mon, 01 Jun 2026 10:00:00 +0800</pubDate><guid>https://beaiera.top/posts/turboquant-intro/</guid><description>&lt;h2 id="引言"&gt;引言&lt;/h2&gt;
&lt;p&gt;大语言模型（LLM）推理时，KV Cache 是显存消耗的主要来源之一。以 LLaMA-70B 为例，在 4096 上下文长度下，KV Cache 占用超过 40 GB 显存。传统的 FP16 KV Cache 每个 token 需要 2 × head_dim × num_heads × 2 bytes = 大量显存。如果能将 KV Cache 压缩到 3-4 bit，就可以将显存占用降低到原来的 1/4 到 1/5，从而支持更长的上下文、更大的 batch size，或在更少的 GPU 上运行同一模型。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;TurboQuant&lt;/strong&gt;（Zandieh et al., ICLR 2026）正是为此而生——它是 vLLM 中实现的一种极低比特 KV Cache 量化方法，通过 Hadamard 旋转 + Lloyd-Max 最优标量量化 + Norm Correction 的组合，将 KV Cache 压缩至 3-4 bit，最高实现 4.9× 压缩比。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="为什么需要-turboquant"&gt;为什么需要 TurboQuant？&lt;/h2&gt;
&lt;p&gt;在 TurboQuant 之前，vLLM 已经支持了 FP8 KV Cache（2× 压缩，几乎无损）。但 2× 压缩在某些场景下仍然不够：&lt;/p&gt;</description></item><item><title>vLLM 量化方法详解：原理、算法与实现</title><link>https://beaiera.top/posts/vllm-quantization-methods/</link><pubDate>Mon, 01 Jun 2026 09:00:00 +0800</pubDate><guid>https://beaiera.top/posts/vllm-quantization-methods/</guid><description>&lt;blockquote&gt;
&lt;p&gt;本文档聚焦于 vLLM 中与 NVIDIA GPU 兼容的通用量化方法，排除了框架特定方案（GGUF、Compressed-Tensors、Quark、Hummingbird）和硬件厂商专有方案（ModelOpt、INC、NVFP4）。涵盖：数学原理、量化/反量化公式、位宽与分组结构、核心算法步骤、Kernel 级实现细节及硬件要求。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;hr&gt;
&lt;h2 id="目录"&gt;目录&lt;/h2&gt;
&lt;ol&gt;
&lt;li&gt;&lt;a href="#1-fp8-w8a8%E5%8A%A8%E6%80%81%E9%9D%99%E6%80%81%E9%87%8F%E5%8C%96"&gt;FP8 W8A8（动态/静态量化）&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href="#2-awq%E6%BF%80%E6%B4%BB%E6%84%9F%E7%9F%A5%E6%9D%83%E9%87%8D%E9%87%8F%E5%8C%96"&gt;AWQ（激活感知权重量化）&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href="#3-gptq--marlin"&gt;GPTQ / Marlin&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href="#4-awq-marlin"&gt;AWQ Marlin&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href="#5-bitsandbytesnf4--qlora"&gt;BitsAndBytes（NF4 / QLoRA）&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href="#6-mxfp4ocp-mx-%E8%A7%84%E8%8C%83"&gt;MXFP4（OCP MX 规范）&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href="#7-online-quantization%E5%9C%A8%E7%BA%BF%E9%87%8F%E5%8C%96"&gt;Online Quantization（在线量化）&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href="#8-turboquant"&gt;TurboQuant&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href="#9-fp8--int8-kv-cache"&gt;FP8 / INT8 KV Cache&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href="#10-%E5%AF%B9%E6%AF%94%E6%80%BB%E7%BB%93"&gt;对比总结&lt;/a&gt;&lt;/li&gt;
&lt;/ol&gt;
&lt;hr&gt;
&lt;h2 id="1-fp8-w8a8动态静态量化"&gt;1. FP8 W8A8（动态/静态量化）&lt;/h2&gt;
&lt;h3 id="论文"&gt;论文&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;FP8 格式标准&lt;/strong&gt;: &lt;em&gt;FP8 Formats for Deep Learning&lt;/em&gt; (Micikevicius et al., 2022, arXiv:2209.05433)&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;vLLM 实现&lt;/strong&gt;: 主要面向 H100/H200 GPU，利用 &lt;code&gt;torch._scaled_mm&lt;/code&gt; 调用 Tensor Core。&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id="概述"&gt;概述&lt;/h3&gt;
&lt;p&gt;FP8 W8A8 将权重和激活均量化为 FP8 格式。支持两种调度模式：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;静态量化&lt;/strong&gt;：校准集上预计算 scale，推理时固定。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;动态量化&lt;/strong&gt;：推理时实时统计最大值计算 scale。&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id="量化公式"&gt;量化公式&lt;/h3&gt;
&lt;p&gt;FP8 有两种指数位宽子格式：&lt;/p&gt;
&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;格式&lt;/th&gt;
&lt;th&gt;符号位&lt;/th&gt;
&lt;th&gt;指数位&lt;/th&gt;
&lt;th&gt;尾数位&lt;/th&gt;
&lt;th&gt;最大值&lt;/th&gt;
&lt;th&gt;最小值&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;E4M3&lt;/td&gt;
&lt;td&gt;1&lt;/td&gt;
&lt;td&gt;4&lt;/td&gt;
&lt;td&gt;3&lt;/td&gt;
&lt;td&gt;448&lt;/td&gt;
&lt;td&gt;1/16&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;E5M2&lt;/td&gt;
&lt;td&gt;1&lt;/td&gt;
&lt;td&gt;5&lt;/td&gt;
&lt;td&gt;2&lt;/td&gt;
&lt;td&gt;57344&lt;/td&gt;
&lt;td&gt;1/64&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;量化核心操作：&lt;/p&gt;</description></item></channel></rss>