English(EN) Stochastic KV Routing: Enabling Adaptive Depth-Wise Cache Sharing

苹果研究人员提出缓存共享以降低 LLM 服务成本

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-05 00:00

Apple Machine Learning Research 发布了一篇论文，详细介绍了一种名为 Stochastic KV Routing 的新方法，以减小 transformer 语言模型的内存占用。该技术侧重于优化 KV 缓存的深度维度，而不是仅仅进行时间压缩或淘汰。通过训练层随机关注先前层的 KV 状态，模型能够适应各种缓存共享策略而不会丢失信息，有可能在显著降低内存使用量的同时保持或提高性能。 AI

影响引入了一种减少 LLM 中 KV 缓存内存的新颖技术，有可能降低服务成本并支持更长的上下文窗口。

排序理由该集群包含一篇由 Apple ML Research 团队发布的关于优化 LLM 推理的新颖方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 Apple Machine Learning Research 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

Apple Machine Learning Research TIER_1 English(EN) · 2026-05-05 00:00

随机键值路由：实现自适应深度缓存共享

Serving transformer language models with high throughput requires caching Key-Values (KVs) to avoid redundant computation during autoregressive generation. The memory footprint of KV caching is significant and heavily impacts serving costs. This work proposes to lessen these memo…

报道来源 [1]

随机键值路由：实现自适应深度缓存共享

相关实体

相关话题