DeepSeek V4 MegaMoE Kernel 深度解析

Tue, 02 Jun 2026 00:00:00 +0800

前言

经典 MoE 的计算过程

在深入 MegaMoE 之前，先梳理一下经典 MoE（Mixture of Experts）层的完整计算流程。以一个具体配置为例：

T = 8 # 当前 batch 中的 token 数
H = 7168 # hidden size
I = 2048 # intermediate size（每个 expert 的 FFN 中间维度）
E = 256 # 总 expert 数量
K = 6 # 每个 token 激活的 expert 数（top-K）

第一步：路由（Routing）

输入 hidden_states 形状为 [T, H]（即 [8, 7168]）。

通过 Gate 线性层：

gate = hidden_states @ W_gate^T # W_gate: [E, H]
→ gate: [T, E] = [8, 256] # 每个 token 对每个 expert 的得分

对每个 token 施加 scoring 函数（如 softmax 或 sqrt(softplus)），然后取 top-K：

Blackwell on Richelieu's Blog

DeepSeek V4 MegaMoE Kernel 深度解析

前言

经典 MoE 的计算过程

第一步：路由（Routing）