<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>Blackwell on Richelieu's Blog</title><link>https://beaiera.top/tags/blackwell/</link><description>Recent content in Blackwell on Richelieu's Blog</description><generator>Hugo</generator><language>zh-cn</language><lastBuildDate>Tue, 02 Jun 2026 00:00:00 +0800</lastBuildDate><atom:link href="https://beaiera.top/tags/blackwell/index.xml" rel="self" type="application/rss+xml"/><item><title>DeepSeek V4 MegaMoE Kernel 深度解析</title><link>https://beaiera.top/posts/2026-06-02-deepseek-v4-megamoe/</link><pubDate>Tue, 02 Jun 2026 00:00:00 +0800</pubDate><guid>https://beaiera.top/posts/2026-06-02-deepseek-v4-megamoe/</guid><description>&lt;h2 id="前言"&gt;前言&lt;/h2&gt;
&lt;h3 id="经典-moe-的计算过程"&gt;经典 MoE 的计算过程&lt;/h3&gt;
&lt;p&gt;在深入 MegaMoE 之前，先梳理一下经典 MoE（Mixture of Experts）层的完整计算流程。以一个具体配置为例：&lt;/p&gt;
&lt;pre tabindex="0"&gt;&lt;code&gt;T = 8 # 当前 batch 中的 token 数
H = 7168 # hidden size
I = 2048 # intermediate size（每个 expert 的 FFN 中间维度）
E = 256 # 总 expert 数量
K = 6 # 每个 token 激活的 expert 数（top-K）
&lt;/code&gt;&lt;/pre&gt;&lt;h4 id="第一步路由routing"&gt;第一步：路由（Routing）&lt;/h4&gt;
&lt;p&gt;输入 &lt;code&gt;hidden_states&lt;/code&gt; 形状为 &lt;code&gt;[T, H]&lt;/code&gt;（即 &lt;code&gt;[8, 7168]&lt;/code&gt;）。&lt;/p&gt;
&lt;p&gt;通过 Gate 线性层：&lt;/p&gt;
&lt;pre tabindex="0"&gt;&lt;code&gt;gate = hidden_states @ W_gate^T # W_gate: [E, H]
→ gate: [T, E] = [8, 256] # 每个 token 对每个 expert 的得分
&lt;/code&gt;&lt;/pre&gt;&lt;p&gt;对每个 token 施加 scoring 函数（如 &lt;code&gt;softmax&lt;/code&gt; 或 &lt;code&gt;sqrt(softplus)&lt;/code&gt;），然后取 top-K：&lt;/p&gt;</description></item></channel></rss>