Apple Machine Learning Research 发布了一篇论文,详细介绍了一种名为 Stochastic KV Routing 的新方法,以减小 transformer 语言模型的内存占用。该技术侧重于优化 KV 缓存的深度维度,而不是仅仅进行时间压缩或淘汰。通过训练层随机关注先前层的 KV 状态,模型能够适应各种缓存共享策略而不会丢失信息,有可能在显著降低内存使用量的同时保持或提高性能。 AI
影响 引入了一种减少 LLM 中 KV 缓存内存的新颖技术,有可能降低服务成本并支持更长的上下文窗口。
排序理由 该集群包含一篇由 Apple ML Research 团队发布的关于优化 LLM 推理的新颖方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]
在 Apple Machine Learning Research 阅读 →
- Anastasiia Filippova
- Apple Machine Learning Research
- David Grangier
- Marco Cuturi
- Stochastic KV Routing
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →