vLLM 中的 Attention Sink 与 Sliding Window Attention 深度解析

Fri, 05 Jun 2026 12:00:00 +0800

概述

本文围绕 vLLM 推理引擎中的两个关键注意力机制展开深入分析：Attention Sink（注意力沉没）和 Sliding Window Attention（滑动窗口注意力，SWA）。内容涵盖它们的设计原理、vLLM 中的代码实现、KV cache 管理流程，以及 DeepSeek V4 模型如何运用这些技术。

所有分析基于 vLLM 代码库中 DeepSeek V4 相关的实现。

Sliding Window on Richelieu's Blog

vLLM 中的 Attention Sink 与 Sliding Window Attention 深度解析

概述