谷歌研究在星期三发布了TurboQuant,这是一种压缩算法,可以将主要的推理内存瓶颈缩小至少6倍,同时保持零精度损失。
该论文计划在ICLR 2026上进行展示,因此网上的反应立刻产生。
Cloudflare首席执行官马修·普林斯称其为谷歌的DeepSeek时刻。记忆类股票的价格,包括美光、希捷和西部数据,在同一天下跌。
那么这是真的吗?
量化效率本身就是一个伟大的成就。但“零精度损失”需要背景。
TurboQuant针对KV缓存——存储语言模型在对话中需要记住的所有内容的GPU内存块。
随着上下文窗口扩大到数百万个标记,这些缓存会在每个会话中膨胀到数百GB。这才是真正的瓶颈。不是计算能力,而是原始内存。
传统的压缩方法试图通过将数字向下舍入来缩小这些缓存——例如,从32位浮点到16位,再到8位和4位整数。为了更好地理解这一点,可以想象将一张图像从4K缩小到全高清,再到720p等等。你可以轻松辨别总体上一样的图像,但4K分辨率的细节更多。
问题是:它们必须在压缩数据旁边存储额外的“量化常数”,以防止模型变得无效。这些常数为每个值增加了1到2位,部分削弱了增益。
TurboQuant声称它完全消除了这种开销。
它通过两个子算法实现这一点。PolarQuant在向量中分离幅度和方向,而QJL(量化的约翰逊-林登斯特劳斯)将剩余的小误差减少到一个单独的符号位,正或负,没有存储常数。
谷歌表示,结果是一个在进行变换模型的注意力计算时数学上无偏的估计器。
在使用Gemma和Mistral的基准测试中,TurboQuant在4倍压缩下达到了完全精度的性能,包括在需要检索104,000个标记的针垫任务中的完美检索精度。
关于这些基准测试为什么重要的背景是,扩大模型的可用上下文而不损失质量一直是LLM部署中最困难的问题之一。
现在,附带条件。
“零精度损失”适用于推理过程中的KV缓存压缩——而不是模型的权重。压缩权重是一个完全不同且更复杂的问题。TurboQuant不涉及这些。
它压缩的是存储会话中间注意力计算的临时内存,这对于可以理论上重建的数据来说更加宽容。
干净的基准测试与服务数十亿请求的生产系统之间也存在差距。TurboQuant是在开放源代码模型上进行测试的——Gemma、Mistral、Llama——而不是谷歌自己的Gemini堆栈的规模。
不同于DeepSeek的效率提升,它需要从一开始就烘焙的深度架构决策,TurboQuant不需要重新训练或微调,并声称运行时开销微乎其微。理论上,它可以直接嵌入现有的推理管道。
这就是让内存硬件领域感到恐慌的部分——因为如果它在生产中有效,每个主要的AI实验室都可以在他们已经拥有的同样GPU上更加精简运行。
该论文将参加ICLR 2026。在它投入生产之前,“零损失”的标题将停留在实验室。
免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。