实体 KV Policy

KV Policy

PulseAugur coverage of KV Policy — every cluster mentioning KV Policy across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_115682 · Jun 29 · 04:00

新的强化学习框架优化LLM KV缓存以实现高效推理

研究人员开发了一个名为KV Policy (KVP) 的新颖框架，通过优化键值（KV）缓存来解决大型语言模型（LLM）的内存需求。KVP将KV缓存驱逐重构为一个强化学习问题，训练轻量级代理来预测未来解码的token有用性。该方法在长上下文和多轮对话基准测试中显著优于现有的启发式方法，并展示了在不改变底层LLM的情况下泛化到新任务和更长序列长度的能力。