研究人员开发了一种名为前瞻稀疏注意力(Lookahead Sparse Attention, LSA)的新技术,该技术显著减少了大型语言模型在处理长上下文时的内存占用。通过训练一个轻量级的神经内存索引器,LSA 仅预测和加载 KV 缓存的关键部分,将内存使用量减少到完整缓存大小的 13.5%。该方法在 DeepSeek-V4 模型上进行了演示,显示 KV 缓存大小有所减小,准确性略有提高。 AI
影响 降低了长上下文 LLM 的内存成本,可能使其在部署时更易于访问和更高效。
排序理由 该条目描述了一篇研究论文(arXiv 2606.09079)中提出的一项新技术,该技术优化了长上下文 LLM 的推理。 [lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →