科技快讯-K

谷歌发布 TurboQuant 算法：大模型 KV 缓存瓶颈获史实级突破

谷歌研究团队在 ICLR 2026 会议上展示了 TurboQuant 压缩算法。该技术解决了大语言模型在长文本处理时最头疼的 KV Cache 内存占用问题。通过“极化旋转”与“随机投影压缩”两步走方案，它能将长文本推理的内存开销降低至原来的十分之一，且几乎不损失精度。这意味着 2026 年的主流端侧设备（如手机、眼镜）将能够流畅运行百万级上下文的模型。同时，谷歌还发布了全开源的 Gemma 4 模型，主打智能体工作流的极致优化，发布首周下载量即突破千万。

Google DeepMind News / Radical Data Science
2026-04-07

谷歌发布 TurboQuant 算法：大模型 KV 缓存瓶颈获史实级突破

参与讨论