研究人员开发了一个名为KV Policy (KVP) 的新颖框架,通过优化键值(KV)缓存来解决大型语言模型(LLM)的内存需求。KVP将KV缓存驱逐重构为一个强化学习问题,训练轻量级代理来预测未来解码的token有用性。该方法在长上下文和多轮对话基准测试中显著优于现有的启发式方法,并展示了在不改变底层LLM的情况下泛化到新任务和更长序列长度的能力。 AI
影响 这项研究为LLM推理提供了一种更有效的方法,有望降低计算成本并提高长上下文任务的性能。
排序理由 学术论文,详细介绍了LLM推理优化的新方法。[lever_c_demoted from research: ic=1 ai=1.0]
- BoolQ
- GovReport
- KV cache
- KV Policy
- large-language models
- LongBench
- Luca Moschella
- OASST2-4k
- reinforcement learning
- RULER
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →