TurboQuant

引言大语言模型（LLM）推理时，KV Cache 是显存消耗的主要来源之一。以 LLaMA-70B 为例，在 4096 上下文长度下，KV Cache 占用超过 40 GB 显存。传统的 FP16 KV Cache 每个 token 需要 2 × head_dim × num_heads × 2 bytes = 大量显存。如果能将 KV Cache 压缩到 3-4 bit，就可以将显存占用降低到原来的 1/4 到 1/5，从而支持更长的上下文、更大的 batch size，或在更少的 GPU 上运行同一模型。 TurboQuant（Zandieh et al., ICLR 2026）正是为此而生——它是 vLLM 中实现的一种极低比特 KV Cache 量化方法，通过 Hadamard 旋转 + Lloyd-Max 最优标量量化 + Norm Correction 的组合，将 KV Cache 压缩至 3-4 bit，最高实现 4.9× 压缩比。为什么需要 TurboQuant？在 TurboQuant 之前，vLLM 已经支持了 FP8 KV Cache（2× 压缩，几乎无损）。但 2× 压缩在某些场景下仍然不够： ...