InfiniteKV 是一个新颖的 KV 缓存系统,旨在通过将旧 token 以压缩、可搜索的格式存储在磁盘或 RAM 中来扩展大型语言模型的上下文窗口。这种方法使模型能够访问远超其原始训练限制的信息,Mistral-7B 成功从第 76,747 个 token 回答了一个查询,显著超出了其 32,768 个 token 的限制,证明了这一点。该系统将最近的 token 保存在 GPU 内存中以提高速度,同时将较旧的 token 卸载到磁盘,将每百万 token 的内存需求从几 GB 大幅降低到仅几 MB。 AI
影响 使 LLM 能够处理和回忆来自极大扩展上下文的信息,有可能在长篇内容分析和生成方面解锁新应用。
排序理由 这是一种扩展 LLM 上下文窗口的新颖技术方法,作为一个开源项目发布,并附有可验证的结果。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →