谷歌发布KV缓存压缩技术，存储需求预期遭冲击，美股存储板块集体下挫

李佳、鲍奕龙

03/26 05:13

谷歌推出内存压缩技术TurboQuant，可将大语言模型键值缓存压缩至3比特，实现6倍内存缩减与最高8倍加速，引发市场对存储需求担忧。不过摩根士丹利指出该技术仅作用于推理阶段，或反而激活更多AI应用场景。存储股盘中重挫，收盘时跌幅普遍收窄，闪迪、美光收跌3.4%，希捷收跌2.6%，西部数据跌幅收窄至1.6%。

美股存储芯片板块周三盘中遭遇重挫。闪迪一度跌6.5%，美光科技跌4%，西部数据跌超4%，希捷科技跌超5%。

谷歌发布的新型AI内存压缩技术TurboQuant，引发市场对存储需求前景的担忧。据称，该技术可在不损失准确性的前提下，将大语言模型的缓存内存占用至少减少6倍，并实现最高8倍的加速，旨在解决AI推理与向量搜索中的内存瓶颈问题。

周三美股收盘，存储芯片与硬件供应链指数跌2.08%，报113.03点，盘中一度跌至109点刷新日低。闪迪和美光跌幅靠前，收跌超3.4%。希捷科技收跌2.6%，西部数据跌幅收窄至1.6%。

谷歌TurboQuant冲击存储需求

谷歌发布的TurboQuant是一种专为大型语言模型和向量搜索引擎设计的内存压缩技术，核心目标是解决AI系统中键值缓存（Key-Value Cache）的存储瓶颈。

根据谷歌公告，TurboQuant可在无需模型训练或微调的前提下，将键值缓存压缩至3比特，在Gemma、Mistral等开源模型上实测达到键值内存6倍缩减效果。在英伟达H100 GPU加速器上，该算法较未量化键值方案性能提升最高达8倍。

该技术通过两步实现压缩：首先采用PolarQuant方法对数据向量进行旋转以实现高质量压缩，继而利用量化Johnson-Lindenstrauss算法消除残差误差。谷歌指出，传统向量量化方法每个数字会产生1至2比特的额外内存开销，部分抵消了压缩收益，而TurboQuant对此有所改善。

TurboQuant将于ICLR 2026发表，PolarQuant则计划在AISTATS 2026上亮相。谷歌已在LongBench、Needle In A Haystack、ZeroSCROLLS、RULER及L-Eval等多项基准测试中完成验证，并指出该技术同样适用于大规模搜索引擎的向量检索场景。

杰文斯悖论再现？TurboQuant或激活更多AI应用场景

摩根士丹利指出，谷歌TurboQuant技术仅作用于推理阶段的键值缓存，不影响模型权重所占用的高带宽内存（HBM），也与训练任务无关。

因此，这并非存储总需求或硬件总量减少6倍，而是通过效率提升增加单GPU吞吐量——相同硬件可支持4至8倍更长的上下文，或在不触发内存溢出的前提下显著提升批处理规模。

尽管如此，存储板块今年以来累计涨幅显著，估值本已承压，任何可能削减硬件需求的技术进展都足以触发市场的防御性反应。摩根士丹利亦提示，由于该压缩技术可直接集成进平台基础设施，对软件层面可能形成边际利空。

在分析中，摩根士丹利援引杰文斯悖论，认为效率提升反而可能推升整体需求。其逻辑在于：TurboQuant通过压缩数据体积与传输量，大幅降低单次查询的服务成本，使AI部署更具盈利性。

这意味着原本依赖云端集群的模型可迁移至本地硬件运行，有效降低AI规模化部署的门槛，从而激活更多应用场景，带动现有基础设施利用率提升。

摩根士丹利将TurboQuant称为“重塑AI部署成本曲线的突破”，并将其与DeepSeek的影响相提并论——对云服务商与模型平台构成积极信号，在长上下文推理与检索密集型应用中带来可观的投资回报价值，而对算力与内存硬件的长期影响则判断为“中性偏正面”。

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。