vLLM 中的 Attention Sink 与 Sliding Window Attention 深度解析

Fri, 05 Jun 2026 12:00:00 +0800

概述

本文围绕 vLLM 推理引擎中的两个关键注意力机制展开深入分析：Attention Sink（注意力沉没）和 Sliding Window Attention（滑动窗口注意力，SWA）。内容涵盖它们的设计原理、vLLM 中的代码实现、KV cache 管理流程，以及 DeepSeek V4 模型如何运用这些技术。

所有分析基于 vLLM 代码库中 DeepSeek V4 相关的实现。

vLLM TurboQuant 介绍：极低比特 KV Cache 量化

Mon, 01 Jun 2026 10:00:00 +0800

引言

大语言模型（LLM）推理时，KV Cache 是显存消耗的主要来源之一。以 LLaMA-70B 为例，在 4096 上下文长度下，KV Cache 占用超过 40 GB 显存。传统的 FP16 KV Cache 每个 token 需要 2 × head_dim × num_heads × 2 bytes = 大量显存。如果能将 KV Cache 压缩到 3-4 bit，就可以将显存占用降低到原来的 1/4 到 1/5，从而支持更长的上下文、更大的 batch size，或在更少的 GPU 上运行同一模型。

TurboQuant（Zandieh et al., ICLR 2026）正是为此而生——它是 vLLM 中实现的一种极低比特 KV Cache 量化方法，通过 Hadamard 旋转 + Lloyd-Max 最优标量量化 + Norm Correction 的组合，将 KV Cache 压缩至 3-4 bit，最高实现 4.9× 压缩比。

为什么需要 TurboQuant？

在 TurboQuant 之前，vLLM 已经支持了 FP8 KV Cache（2× 压缩，几乎无损）。但 2× 压缩在某些场景下仍然不够：

KV Cache on Richelieu's Blog

vLLM 中的 Attention Sink 与 Sliding Window Attention 深度解析

概述

vLLM TurboQuant 介绍：极低比特 KV Cache 量化

引言

为什么需要 TurboQuant？