PulseAugur
实时 00:09:14
English(EN) Stochastic KV Routing: Enabling Adaptive Depth-Wise Cache Sharing

苹果研究人员提出缓存共享以降低 LLM 服务成本

Apple Machine Learning Research 发布了一篇论文,详细介绍了一种名为 Stochastic KV Routing 的新方法,以减小 transformer 语言模型的内存占用。该技术侧重于优化 KV 缓存的深度维度,而不是仅仅进行时间压缩或淘汰。通过训练层随机关注先前层的 KV 状态,模型能够适应各种缓存共享策略而不会丢失信息,有可能在显著降低内存使用量的同时保持或提高性能。 AI

影响 引入了一种减少 LLM 中 KV 缓存内存的新颖技术,有可能降低服务成本并支持更长的上下文窗口。

排序理由 该集群包含一篇由 Apple ML Research 团队发布的关于优化 LLM 推理的新颖方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 Apple Machine Learning Research 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

苹果研究人员提出缓存共享以降低 LLM 服务成本

报道来源 [1]

  1. Apple Machine Learning Research TIER_1 English(EN) ·

    随机键值路由:实现自适应深度缓存共享

    Serving transformer language models with high throughput requires caching Key-Values (KVs) to avoid redundant computation during autoregressive generation. The memory footprint of KV caching is significant and heavily impacts serving costs. This work proposes to lessen these memo…