量化 on Richelieu's Blog

DeepSeek V4 MoE 量化技术详解

Tue, 02 Jun 2026 00:00:00 +0800

前言

本文整理自一次围绕 vLLM 代码库中 DeepSeek V4 MoE 模块的技术讨论，内容涉及 MXFP4 与 NVFP4 的量化方案对比、Block Quantized GEMM 的设计原理、FP4 packed 存储格式、以及 DeepGEMM 库中 FP8×FP4 在 Blackwell 硬件上的具体实现。

一、DeepSeek V4 MoE 核心优化概览

DeepSeek V4 的 MoE 模块在 vLLM 中的实现包含了大量优化：

优化	说明
DeepGEMM MegaMoE	融合 EP dispatch + L1 GEMM + SwiGLU + L2 GEMM + EP combine 为单 mega-kernel，NVLink 通信与计算重叠
FP4 (MXFP4/NVFP4) 权重量化	4-bit 浮点权重 + UE8M0 block scale
Expert Parallelism 多后端	DeepEP、FlashInfer NVLink、MORI、NIXL 等多种 all-to-all 策略
Fused TopK Bias Routing	sqrt(softplus) 得分函数、e_score_correction_bias、hash MoE
EPLB	每层跟踪 expert 负载，动态重新分配
Fused MLA Kernel	Q-norm + RoPE + KV quant + cache insert 融合为单 CUDA 核
MTP (Multi-Token Prediction)	共享 MoE 架构的 speculative decoding

二、MXFP4 与 NVFP4 的区别

DeepSeek V4 Flash 使用 FP4 权重，有两个可选方案：MXFP4 (OCP 开放标准) 和 NVFP4 (NVIDIA 私有格式)。切换由 HuggingFace config 中的 moe_quant_algo 字段控制。

vLLM SP/AsyncTP/Quant 技术笔记

Tue, 02 Jun 2026 00:00:00 +0800

背景

vLLM 中实现了多种并行策略与编译优化。本文聚焦三条密切关联的技术线：Sequence Parallelism (SP)、Async Tensor Parallelism (AsyncTP) 与 量化 (Quantization) 的协同工作方式，涵盖概念辨析、GEMM-通信融合原理、量化感知改写以及配置细节。

vLLM TurboQuant 介绍：极低比特 KV Cache 量化

Mon, 01 Jun 2026 10:00:00 +0800

引言

大语言模型（LLM）推理时，KV Cache 是显存消耗的主要来源之一。以 LLaMA-70B 为例，在 4096 上下文长度下，KV Cache 占用超过 40 GB 显存。传统的 FP16 KV Cache 每个 token 需要 2 × head_dim × num_heads × 2 bytes = 大量显存。如果能将 KV Cache 压缩到 3-4 bit，就可以将显存占用降低到原来的 1/4 到 1/5，从而支持更长的上下文、更大的 batch size，或在更少的 GPU 上运行同一模型。

TurboQuant（Zandieh et al., ICLR 2026）正是为此而生——它是 vLLM 中实现的一种极低比特 KV Cache 量化方法，通过 Hadamard 旋转 + Lloyd-Max 最优标量量化 + Norm Correction 的组合，将 KV Cache 压缩至 3-4 bit，最高实现 4.9× 压缩比。

为什么需要 TurboQuant？

在 TurboQuant 之前，vLLM 已经支持了 FP8 KV Cache（2× 压缩，几乎无损）。但 2× 压缩在某些场景下仍然不够：

vLLM 量化方法详解：原理、算法与实现

Mon, 01 Jun 2026 09:00:00 +0800

本文档聚焦于 vLLM 中与 NVIDIA GPU 兼容的通用量化方法，排除了框架特定方案（GGUF、Compressed-Tensors、Quark、Hummingbird）和硬件厂商专有方案（ModelOpt、INC、NVFP4）。涵盖：数学原理、量化/反量化公式、位宽与分组结构、核心算法步骤、Kernel 级实现细节及硬件要求。

1. FP8 W8A8（动态/静态量化）

论文

FP8 格式标准: FP8 Formats for Deep Learning (Micikevicius et al., 2022, arXiv:2209.05433)
vLLM 实现: 主要面向 H100/H200 GPU，利用 torch._scaled_mm 调用 Tensor Core。

概述

FP8 W8A8 将权重和激活均量化为 FP8 格式。支持两种调度模式：

静态量化：校准集上预计算 scale，推理时固定。
动态量化：推理时实时统计最大值计算 scale。

量化公式

FP8 有两种指数位宽子格式：

格式	符号位	指数位	尾数位	最大值	最小值
E4M3	1	4	3	448	1/16
E5M2	1	5	2	57344	1/64

量化核心操作：