研究人员开发了 IntentKV,一种用于剪枝大型语言模型代理中 KV 缓存的新颖方法,以提高推理效率。该技术维护跨轮意图的会话级记忆,使其能够对 token 进行评分并选择性地删除,而不会显著损失准确性。IntentKV 已证明在减少峰值请求 token 和 KV 读取方面取得了显著成效,尤其是在长时程代理任务中,同时保持基础 LLM 不变。 AI
影响 减小 LLM 代理的 KV 缓存大小,可能降低推理成本并支持更长的上下文窗口。
排序理由 该集群包含一篇详细介绍 LLM 推理新优化方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →