<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>Scaling Factor on Richelieu's Blog</title><link>https://beaiera.top/tags/scaling-factor/</link><description>Recent content in Scaling Factor on Richelieu's Blog</description><generator>Hugo</generator><language>zh-cn</language><lastBuildDate>Mon, 01 Jun 2026 11:40:00 +0800</lastBuildDate><atom:link href="https://beaiera.top/tags/scaling-factor/index.xml" rel="self" type="application/rss+xml"/><item><title>DeepSeek-v2 Routed Scaling Factor 应用时机详解</title><link>https://beaiera.top/posts/deepseek-routed-scaling/</link><pubDate>Mon, 01 Jun 2026 11:40:00 +0800</pubDate><guid>https://beaiera.top/posts/deepseek-routed-scaling/</guid><description>&lt;h2 id="背景"&gt;背景&lt;/h2&gt;
&lt;p&gt;DeepSeek-V2/V3 系列模型采用了 MoE（Mixture of Experts）架构，其中 &lt;code&gt;routed_scaling_factor&lt;/code&gt; 是一个重要的超参数，用于缩放 routed expert 的输出。该系数来自模型 config，在 &lt;code&gt;DeepseekV2MoE.__init__&lt;/code&gt; 中初始化：&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-python" data-lang="python"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="bp"&gt;self&lt;/span&gt;&lt;span class="o"&gt;.&lt;/span&gt;&lt;span class="n"&gt;routed_scaling_factor&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;config&lt;/span&gt;&lt;span class="o"&gt;.&lt;/span&gt;&lt;span class="n"&gt;routed_scaling_factor&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;默认值通常为 &lt;code&gt;1.0&lt;/code&gt;，但 DeepSeek-V2 系列（如 deepseek-v2、deepseek-coder-v2）设置的典型值是 &lt;code&gt;2.5&lt;/code&gt; 或 &lt;code&gt;1.0&lt;/code&gt;，取决于具体子模型。&lt;/p&gt;
&lt;h2 id="控制开关"&gt;控制开关&lt;/h2&gt;
&lt;p&gt;在 vLLM 的 &lt;code&gt;deepseek_v2.py&lt;/code&gt; 中，关键代码如下：&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-python" data-lang="python"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="n"&gt;apply_routed_scale_to_output&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="ow"&gt;not&lt;/span&gt; &lt;span class="bp"&gt;self&lt;/span&gt;&lt;span class="o"&gt;.&lt;/span&gt;&lt;span class="n"&gt;is_rocm_aiter_moe_enabled&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="n"&gt;routed_scaling_factor&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="bp"&gt;self&lt;/span&gt;&lt;span class="o"&gt;.&lt;/span&gt;&lt;span class="n"&gt;routed_scaling_factor&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="n"&gt;apply_routed_scale_to_output&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="ow"&gt;not&lt;/span&gt; &lt;span class="bp"&gt;self&lt;/span&gt;&lt;span class="o"&gt;.&lt;/span&gt;&lt;span class="n"&gt;is_rocm_aiter_moe_enabled&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;这个 bool 值决定了 &lt;code&gt;routed_scaling_factor&lt;/code&gt; 由谁处理——是 kernel 内部还是 runner 外部。&lt;/p&gt;</description></item></channel></rss>