实体
Stochastic KV Routing
Stochastic KV Routing
PulseAugur coverage of Stochastic KV Routing — every cluster mentioning Stochastic KV Routing across labs, papers, and developer communities, ranked by signal.
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
2
90 天内 2
层级分布 · 90 天
最近 · 第 1/1 页 · 共 2 条
-
苹果研究人员提出缓存共享以降低 LLM 服务成本
Apple Machine Learning Research 发布了一篇论文,详细介绍了一种名为 Stochastic KV Routing 的新方法,以减小 transformer 语言模型的内存占用。该技术侧重于优化 KV 缓存的深度维度,而不是仅仅进行时间压缩或淘汰。通过训练层随机关注先前层的 KV 状态,模型能够适应各种缓存共享策略而不会丢失信息,有可能在显著降低内存使用量的同时保持或提高性能。
-
Stochastic KV Routing enables adaptive depth-wise cache sharing for LLMs
Researchers have developed a new method called Stochastic KV Routing to reduce the memory footprint of transformer language models. This technique enables adaptive depth-wise cache sharing by training layers to randomly…