<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>性能优化 on Richelieu's Blog</title><link>https://beaiera.top/tags/%E6%80%A7%E8%83%BD%E4%BC%98%E5%8C%96/</link><description>Recent content in 性能优化 on Richelieu's Blog</description><generator>Hugo</generator><language>zh-cn</language><lastBuildDate>Tue, 02 Jun 2026 00:00:00 +0800</lastBuildDate><atom:link href="https://beaiera.top/tags/%E6%80%A7%E8%83%BD%E4%BC%98%E5%8C%96/index.xml" rel="self" type="application/rss+xml"/><item><title>vLLM PCP/DCP 技术笔记</title><link>https://beaiera.top/posts/2026-06-02-vllm-pcp-dcp-tech-notes/</link><pubDate>Tue, 02 Jun 2026 00:00:00 +0800</pubDate><guid>https://beaiera.top/posts/2026-06-02-vllm-pcp-dcp-tech-notes/</guid><description>&lt;h2 id="背景"&gt;背景&lt;/h2&gt;
&lt;p&gt;vLLM 中引入了两个上下文并行维度——Prefill Context Parallel (PCP) 和 Decode Context Parallel (DCP)。本文是源码分析记录，覆盖配置入口、进程组初始化、通信模式、KV cache 布局、LSE 合并机制、各 attention backend 支持情况，以及一些数学推导。&lt;/p&gt;</description></item><item><title>vLLM SP/AsyncTP/Quant 技术笔记</title><link>https://beaiera.top/posts/2026-06-02-vllm-sp-asynctp-quant-tech-notes/</link><pubDate>Tue, 02 Jun 2026 00:00:00 +0800</pubDate><guid>https://beaiera.top/posts/2026-06-02-vllm-sp-asynctp-quant-tech-notes/</guid><description>&lt;h2 id="背景"&gt;背景&lt;/h2&gt;
&lt;p&gt;vLLM 中实现了多种并行策略与编译优化。本文聚焦三条密切关联的技术线：&lt;strong&gt;Sequence Parallelism (SP)&lt;/strong&gt;、&lt;strong&gt;Async Tensor Parallelism (AsyncTP)&lt;/strong&gt; 与 &lt;strong&gt;量化 (Quantization)&lt;/strong&gt; 的协同工作方式，涵盖概念辨析、GEMM-通信融合原理、量化感知改写以及配置细节。&lt;/p&gt;</description></item><item><title>vLLM 编译系统完全解析</title><link>https://beaiera.top/posts/2026-06-02-vllm-compilation-system/</link><pubDate>Tue, 02 Jun 2026 00:00:00 +0800</pubDate><guid>https://beaiera.top/posts/2026-06-02-vllm-compilation-system/</guid><description>&lt;p&gt;vLLM 的编译系统在标准 PyTorch &lt;code&gt;torch.compile&lt;/code&gt; 之上做了大量定制：分段编译（Piecewise Compilation）、字节码 Hook、AOT 缓存、动态形状管 理等。本文从多个实际调试问题出发，系统梳理 vLLM 编译系统的核心机制。&lt;/p&gt;</description></item></channel></rss>