研究人员开发了一种名为 Tensor Cache 的新型 Transformer 记忆系统,旨在增强其处理长上下文的能力。该系统结合了滑动窗口缓存和第二级快速权重记忆,后者用于存储被驱逐的 token。通过高效地压缩和召回被驱逐的 KV 对,Tensor Cache 旨在改善长上下文语言建模和其他应用中内存使用与模型质量之间的权衡。 AI
影响 引入了一种提高 Transformer 在长上下文任务中效率的方法,可能催生更强大的模型。
排序理由 学术论文,详细介绍了改进 Transformer 记忆的新技术方法。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →