谷歌发布全新压缩算法:推理内存瓶颈实现六倍优化

本周三,Google Research正式发布名为TurboQuant的新型压缩算法,该技术能够将语言模型推理阶段的核心内存瓶颈——KV缓存——压缩至原有大小的六分之一以下,同时确保计算精度无任何损失。相关研究成果已被ICLR 2026会议收录,并迅速在技术社区中引发热议。

突破传统压缩范式

传统方法通常通过降低数值精度来实现压缩,例如从32位浮点数缩减至16位、8位甚至4位整数。这一过程类似于将4K视频降为720p格式:虽然整体可读性保留,但细节信息逐步丢失。此外,此类方法需额外存储“量化常数”以维持模型性能,每项数据增加1-2比特开销,部分抵消了压缩带来的收益。

TurboQuant则通过两项创新子算法彻底规避了这一问题:其一为PolarQuant,实现了向量幅度与方向的解耦处理;其二为QJL(量化约翰逊-林登斯特劳斯)算法,将残差误差压缩为单一符号位(正或负),无需保存任何辅助常数。谷歌指出,该机制提供了数学上无偏的注意力计算估计器,从根本上保障了推理可靠性。

实验表现与应用前景

在Gemma与Mistral等主流模型上的实测结果显示,即便在4倍压缩率条件下,TurboQuant仍能维持全精度模型性能,包括在长达10.4万令牌的“大海捞针”任务中实现100%检索准确率。这一成果对构建超长上下文窗口的语言模型具有决定性意义。

需要强调的是,“零精度损失”仅适用于推理阶段的KV缓存压缩,不涉及模型权重的压缩。后者属于另一复杂领域。当前技术聚焦于可重构的临时注意力中间状态,这类数据在理论上具备恢复能力,因此更适合进行高效压缩。

技术特性与未来展望

区别于需重构模型架构或重新训练的效率方案,TurboQuant无需任何微调或训练调整,运行时资源开销几乎可以忽略不计。理论上可无缝集成至现有推理流水线中。目前该技术已在Gemma、Mistral及Llama等多个开源模型上完成验证,尚未部署于谷歌内部生产系统。

相关论文将于ICLR 2026正式发表。尽管仍处于实验室阶段,但其在提升模型扩展能力方面的潜力,已促使行业开始重新评估对高带宽内存硬件的需求格局。