vLLM 量化方法详解:原理、算法与实现

本文档聚焦于 vLLM 中与 NVIDIA GPU 兼容的通用量化方法,排除了框架特定方案(GGUF、Compressed-Tensors、Quark、Hummingbird)和硬件厂商专有方案(ModelOpt、INC、NVFP4)。涵盖:数学原理、量化/反量化公式、位宽与分组结构、核心算法步骤、Kernel 级实现细节及硬件要求。 目录 FP8 W8A8(动态/静态量化) AWQ(激活感知权重量化) GPTQ / Marlin AWQ Marlin BitsAndBytes(NF4 / QLoRA) MXFP4(OCP MX 规范) Online Quantization(在线量化) TurboQuant FP8 / INT8 KV Cache 对比总结 1. FP8 W8A8(动态/静态量化) 论文 FP8 格式标准: FP8 Formats for Deep Learning (Micikevicius et al., 2022, arXiv:2209.05433) vLLM 实现: 主要面向 H100/H200 GPU,利用 torch._scaled_mm 调用 Tensor Core。 概述 FP8 W8A8 将权重和激活均量化为 FP8 格式。支持两种调度模式: 静态量化:校准集上预计算 scale,推理时固定。 动态量化:推理时实时统计最大值计算 scale。 量化公式 FP8 有两种指数位宽子格式: 格式 符号位 指数位 尾数位 最大值 最小值 E4M3 1 4 3 448 1/16 E5M2 1 5 2 57344 1/64 量化核心操作: ...

June 1, 2026 · 11 min · 2171 words

每天日记

📝 今天的日记 今天和AI助手聊了一些关于vLLM优化的问题,说说我的感受和思考。 💬 聊了什么 😊 我的感受 起初对PagedAttention原理感到困惑 经过讨论逐渐理解了核心思想 最后豁然开朗,心情变得轻松 📚 学到了什么 🎯 明天的计划 继续实践这些优化思路 多和AI助手讨论技术问题 记录有价值的对话和经验 📝 写于 09:00

June 1, 2026 · 1 min · 20 words

每天日记

📝 今天的日记 今天和AI助手聊了一些关于vLLM优化的问题,说说我的感受和思考。 💬 聊了什么 😊 我的感受 起初对PagedAttention原理感到困惑 经过讨论逐渐理解了核心思想 最后豁然开朗,心情变得轻松 📚 学到了什么 🎯 明天的计划 继续实践这些优化思路 多和AI助手讨论技术问题 记录有价值的对话和经验 📝 写于 09:00

May 31, 2026 · 1 min · 20 words

周末还是要学习

周末的早晨,阳光透过窗户洒在书桌上,安静而祥和。虽然很多人把周末看作完全放松的时刻,但我发现,周末其实是学习和充电的绝佳时光。 不是那种紧张刷题、赶 deadline 的学习,而是慢下来、深入地去理解一些东西。或许是一本 longtemps 想读却一直没时间的书,或许是一个想尝试很久却一直没开始的技能,或者只是安静地复习一下之前学过的知识点。 在这份宁静中,大脑似乎更愿意接受新信息。没有工作日的琐事打扰,没有急迫的任务催促,只有我和知识之间的对话。这种学习带来的不是压力,而是一种充实感——就像给心灵补充营养一样。 当然,学习也要讲究方法。与其强迫自己坐一天,不如: 选择真正感兴趣的主题 设定小而明确的目标(比如今天只看两章) 适时休息,让大脑有时间消化 把所学即用于生活中的小实践 周末不必完全「生产力」,但也不用彻底「躺平」。找到那个平衡点——既能休息身心,又能让自己感觉有进步,才是理想的周末状态。 今天的学习计划是什么呢?或许是阅读那本放了很久的技术书籍,或许是尝试一下新的编程框架,亦或许只是认真地听一场线上讲座。不管是什么,重要的是:开始了,并且享受这个过程。 愿我们都能在周末的学习中,找到自己的节奏和乐趣。周末愉快,学习愉快~ 📚💫

May 30, 2026 · 1 min · 16 words

每天日记

📝 今天的日记 今天和AI助手聊了一些关于vLLM优化的问题,说说我的感受和思考。 💬 聊了什么 😊 我的感受 起初对PagedAttention原理感到困惑 经过讨论逐渐理解了核心思想 最后豁然开朗,心情变得轻松 📚 学到了什么 🎯 明天的计划 继续实践这些优化思路 多和AI助手讨论技术问题 记录有价值的对话和经验 📝 写于 09:00

May 30, 2026 · 1 min · 20 words

每天日记

📝 今天的日记 今天和AI助手聊了一些关于vLLM优化的问题,说说我的感受和思考。 💬 聊了什么 😊 我的感受 起初对PagedAttention原理感到困惑 经过讨论逐渐理解了核心思想 最后豁然开朗,心情变得轻松 📚 学到了什么 🎯 明天的计划 继续实践这些优化思路 多和AI助手讨论技术问题 记录有价值的对话和经验 📝 写于 09:00

May 29, 2026 · 1 min · 20 words

每天日记

📝 今天的日记 今天和AI助手聊了一些关于vLLM优化的问题,说说我的感受和思考。 💬 聊了什么 😊 我的感受 起初对PagedAttention原理感到困惑 经过讨论逐渐理解了核心思想 最后豁然开朗,心情变得轻松 📚 学到了什么 🎯 明天的计划 继续实践这些优化思路 多和AI助手讨论技术问题 记录有价值的对话和经验 📝 写于 09:00

May 28, 2026 · 1 min · 20 words

每天日记

📝 今天的日记 今天和AI助手聊了一些关于vLLM优化的问题,说说我的感受和思考。 💬 聊了什么 😊 我的感受 起初对PagedAttention原理感到困惑 经过讨论逐渐理解了核心思想 最后豁然开朗,心情变得轻松 📚 学到了什么 🎯 明天的计划 继续实践这些优化思路 多和AI助手讨论技术问题 记录有价值的对话和经验 📝 写于 09:00

May 27, 2026 · 1 min · 20 words

每天日记

📝 今天的日记 今天和AI助手聊了一些关于vLLM优化的问题,说说我的感受和思考。 💬 聊了什么 😊 我的感受 起初对PagedAttention原理感到困惑 经过讨论逐渐理解了核心思想 最后豁然开朗,心情变得轻松 📚 学到了什么 🎯 明天的计划 继续实践这些优化思路 多和AI助手讨论技术问题 记录有价值的对话和经验 📝 写于 09:00

May 26, 2026 · 1 min · 20 words

每天日记

📝 今天的日记 今天和AI助手聊了一些关于vLLM优化的问题,说说我的感受和思考。 💬 聊了什么 😊 我的感受 起初对PagedAttention原理感到困惑 经过讨论逐渐理解了核心思想 最后豁然开朗,心情变得轻松 📚 学到了什么 🎯 明天的计划 继续实践这些优化思路 多和AI助手讨论技术问题 记录有价值的对话和经验 📝 写于 09:00

May 25, 2026 · 1 min · 20 words