vLLM 中的 Attention Sink 与 Sliding Window Attention 深度解析

概述 本文围绕 vLLM 推理引擎中的两个关键注意力机制展开深入分析:Attention Sink(注意力沉没)和 Sliding Window Attention(滑动窗口注意力,SWA)。内容涵盖它们的设计原理、vLLM 中的代码实现、KV cache 管理流程,以及 DeepSeek V4 模型如何运用这些技术。 所有分析基于 vLLM 代码库中 DeepSeek V4 相关的实现。 ...

June 5, 2026 · 6 min · 1111 words

vLLM TurboQuant 介绍:极低比特 KV Cache 量化

引言 大语言模型(LLM)推理时,KV Cache 是显存消耗的主要来源之一。以 LLaMA-70B 为例,在 4096 上下文长度下,KV Cache 占用超过 40 GB 显存。传统的 FP16 KV Cache 每个 token 需要 2 × head_dim × num_heads × 2 bytes = 大量显存。如果能将 KV Cache 压缩到 3-4 bit,就可以将显存占用降低到原来的 1/4 到 1/5,从而支持更长的上下文、更大的 batch size,或在更少的 GPU 上运行同一模型。 TurboQuant(Zandieh et al., ICLR 2026)正是为此而生——它是 vLLM 中实现的一种极低比特 KV Cache 量化方法,通过 Hadamard 旋转 + Lloyd-Max 最优标量量化 + Norm Correction 的组合,将 KV Cache 压缩至 3-4 bit,最高实现 4.9× 压缩比。 为什么需要 TurboQuant? 在 TurboQuant 之前,vLLM 已经支持了 FP8 KV Cache(2× 压缩,几乎无损)。但 2× 压缩在某些场景下仍然不够: ...

June 1, 2026 · 5 min · 884 words