谷歌通过缩小人工智能内存实现无准确性损失——但有一个陷阱

谷歌研究在星期三发布了TurboQuant，这是一种压缩算法，可以将主要的推理内存瓶颈缩小至少6倍，同时保持零精度损失。

该论文计划在ICLR 2026上进行展示，因此网上的反应立刻产生。

Cloudflare首席执行官马修·普林斯称其为谷歌的DeepSeek时刻。记忆类股票的价格，包括美光、希捷和西部数据，在同一天下跌。

那么这是真的吗？

量化效率本身就是一个伟大的成就。但“零精度损失”需要背景。

TurboQuant针对KV缓存——存储语言模型在对话中需要记住的所有内容的GPU内存块。

随着上下文窗口扩大到数百万个标记，这些缓存会在每个会话中膨胀到数百GB。这才是真正的瓶颈。不是计算能力，而是原始内存。

传统的压缩方法试图通过将数字向下舍入来缩小这些缓存——例如，从32位浮点到16位，再到8位和4位整数。为了更好地理解这一点，可以想象将一张图像从4K缩小到全高清，再到720p等等。你可以轻松辨别总体上一样的图像，但4K分辨率的细节更多。

问题是：它们必须在压缩数据旁边存储额外的“量化常数”，以防止模型变得无效。这些常数为每个值增加了1到2位，部分削弱了增益。

TurboQuant声称它完全消除了这种开销。

它通过两个子算法实现这一点。PolarQuant在向量中分离幅度和方向，而QJL（量化的约翰逊-林登斯特劳斯）将剩余的小误差减少到一个单独的符号位，正或负，没有存储常数。

谷歌表示，结果是一个在进行变换模型的注意力计算时数学上无偏的估计器。

在使用Gemma和Mistral的基准测试中，TurboQuant在4倍压缩下达到了完全精度的性能，包括在需要检索104,000个标记的针垫任务中的完美检索精度。

关于这些基准测试为什么重要的背景是，扩大模型的可用上下文而不损失质量一直是LLM部署中最困难的问题之一。

现在，附带条件。

“零精度损失”适用于推理过程中的KV缓存压缩——而不是模型的权重。压缩权重是一个完全不同且更复杂的问题。TurboQuant不涉及这些。

它压缩的是存储会话中间注意力计算的临时内存，这对于可以理论上重建的数据来说更加宽容。

干净的基准测试与服务数十亿请求的生产系统之间也存在差距。TurboQuant是在开放源代码模型上进行测试的——Gemma、Mistral、Llama——而不是谷歌自己的Gemini堆栈的规模。

不同于DeepSeek的效率提升，它需要从一开始就烘焙的深度架构决策，TurboQuant不需要重新训练或微调，并声称运行时开销微乎其微。理论上，它可以直接嵌入现有的推理管道。

这就是让内存硬件领域感到恐慌的部分——因为如果它在生产中有效，每个主要的AI实验室都可以在他们已经拥有的同样GPU上更加精简运行。

该论文将参加ICLR 2026。在它投入生产之前，“零损失”的标题将停留在实验室。

免责声明：本文章仅代表作者个人观点，不代表本平台的立场和观点。本文章仅供信息分享，不构成对任何人的任何投资建议。用户与作者之间的任何争议，与本平台无关。如网页中刊载的文章或图片涉及侵权，请提供相关的权利证明和身份证明发送邮件到support@aicoin.com，本平台相关工作人员将会进行核查。