研究人员提出了一种新颖的方法,通过预计算和销售文档的键值 (KV) 缓存来减少 AI 代理的计算量。该方法旨在消除冗余的预填充计算,这是大型模型中最耗费计算的步骤。通过允许代理加载预计算的 KV 缓存,系统可以节省大量的计算资源,对于热门文档,成本可能降低高达 50 倍。提出的解决方案涉及在提供商端的内容分发网络 (CDN) 上托管这些缓存,以避免高昂的出口成本。 AI
影响 通过消除冗余计算,可以显著降低 AI 代理的推理成本。
排序理由 学术论文,提出了一种新颖的 AI 计算效率技术方法。
在 arXiv cs.MA (Multiagent) 阅读 →
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →