<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>分布式推理 on Richelieu's Blog</title><link>https://beaiera.top/tags/%E5%88%86%E5%B8%83%E5%BC%8F%E6%8E%A8%E7%90%86/</link><description>Recent content in 分布式推理 on Richelieu's Blog</description><generator>Hugo</generator><language>zh-cn</language><lastBuildDate>Mon, 01 Jun 2026 11:20:00 +0800</lastBuildDate><atom:link href="https://beaiera.top/tags/%E5%88%86%E5%B8%83%E5%BC%8F%E6%8E%A8%E7%90%86/index.xml" rel="self" type="application/rss+xml"/><item><title>DeepSeek MLA 在 DCP 分布式环境中的 Prefill 阶段解析</title><link>https://beaiera.top/posts/mla-dcp-prefill/</link><pubDate>Mon, 01 Jun 2026 11:20:00 +0800</pubDate><guid>https://beaiera.top/posts/mla-dcp-prefill/</guid><description>&lt;h2 id="前言"&gt;前言&lt;/h2&gt;
&lt;p&gt;DeepSeek 提出的 MLA（Multi-head Latent Attention）通过将 KV 压缩到低维 latent 空间，大幅降低了推理时的 KV cache 开销。但在 DCP（Decode Context Parallel，即上下文并行）分布式环境下，MLA 的 prefill 阶段设计与 decode 阶段有显著差异。本文从实现角度展开分析。&lt;/p&gt;
&lt;h2 id="什么是-dcp"&gt;什么是 DCP&lt;/h2&gt;
&lt;p&gt;DCP（Decode Context Parallel）是一种将 KV cache 按序列维度切分到多个 GPU 的分布式策略。每个 rank 只持有完整 KV cache 的 &lt;code&gt;1/dcp_world_size&lt;/code&gt;，从而减少单卡显存占用，支持更长的上下文。&lt;/p&gt;
&lt;p&gt;与更常见的 DP（Data Parallel，扛并发）和 EP（Expert Parallel，分摊 MoE 参数显存）不同，DCP 解决的是&lt;strong&gt;单请求长上下文&lt;/strong&gt;场景下 KV cache 放不下的问题。&lt;/p&gt;
&lt;h2 id="mla-prefill-vs-decode两条不同的路径"&gt;MLA Prefill vs Decode：两条不同的路径&lt;/h2&gt;
&lt;p&gt;MLA 在 prefill 和 decode 阶段走了截然不同的计算路径：&lt;/p&gt;
&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;&lt;/th&gt;
&lt;th&gt;Prefill (&lt;code&gt;forward_mha&lt;/code&gt;)&lt;/th&gt;
&lt;th&gt;Decode (&lt;code&gt;forward_mqa&lt;/code&gt;)&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;KV 形态&lt;/td&gt;
&lt;td&gt;完整 MHA（N 头）&lt;/td&gt;
&lt;td&gt;Latent（1 头）&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Head dim&lt;/td&gt;
&lt;td&gt;&lt;code&gt;P+R&lt;/code&gt;（~192）&lt;/td&gt;
&lt;td&gt;&lt;code&gt;Lkv+R&lt;/code&gt;（~576）&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;计算特性&lt;/td&gt;
&lt;td&gt;Sq ≈ Skv，计算密集&lt;/td&gt;
&lt;td&gt;Sq ≪ Skv，避免显存搬运&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;&lt;strong&gt;Prefill&lt;/strong&gt; 走 MHA 路径：&lt;code&gt;kv_c&lt;/code&gt; 通过 &lt;code&gt;W_UK&lt;/code&gt;/&lt;code&gt;W_UV&lt;/code&gt; 解压成完整多头 K/V（N 个头），然后做标准的多头注意力。因为 prefill 时新 token 数和 context 长度在同一量级，展开 KV 做计算密集的 attention 是划算的。&lt;/p&gt;</description></item><item><title>DeepSeek V3 MoE 模块计算与通信逻辑详解</title><link>https://beaiera.top/posts/deepseek-v3-moe/</link><pubDate>Mon, 01 Jun 2026 10:10:00 +0800</pubDate><guid>https://beaiera.top/posts/deepseek-v3-moe/</guid><description>&lt;h2 id="概述"&gt;概述&lt;/h2&gt;
&lt;p&gt;DeepSeek V3 的 MoE（Mixture of Experts）模块是其核心组成部分，采用 &lt;strong&gt;Shared + Routed Expert&lt;/strong&gt; 架构。本文基于 vLLM 代码库，深入分析其计算流程、通信模式、量化方案以及性能优化策略。&lt;/p&gt;</description></item></channel></rss>