科技快讯-K

谷歌发布 TurboQuant 算法:大模型 KV 缓存瓶颈获史实级突破

谷歌研究团队在 ICLR 2026 会议上展示了 TurboQuant 压缩算法。该技术解决了大语言模型在长文本处理时最头疼的 KV Cache 内存占用问题。通过“极化旋转”与“随机投影压缩”两步走方案,它能将长文本推理的内存开销降低至原来的十分之一,且几乎不损失精度。这意味着 2026 年的主流端侧设备(如手机、眼镜)将能够流畅运行百万级上下文的模型。同时,谷歌还发布了全开源的 Gemma 4 模型,主打智能体工作流的极致优化,发布首周下载量即突破千万。