两篇新研究论文介绍了管理KV缓存的新方法,KV缓存是在服务具有长上下文的大型语言模型时的关键瓶颈。RedKnot提出了一种头感知的KV缓存管理系统,该系统根据注意力头的注意力和有效范围对缓存进行分解,从而提高资源效率和可扩展性。TokenMizer将对话历史建模为图结构知识图,通过保留关系结构实现了显著的令牌经济和更高的决策召回率。 AI
影响 这些系统旨在提高LLM服务的效率和可扩展性,可能支持更复杂和更长上下文的应用。
排序理由 两篇学术论文提出了LLM基础设施的新方法。
AI 生成摘要 · Google Gemini · 来自 4 个来源。 我们如何撰写摘要 →