研究人员开发了一种名为 Stochastic KV Routing 的新方法,以减小 Transformer 语言模型的内存占用。该技术通过训练层随机关注先前层的 KV 状态,从而实现自适应的深度缓存共享。评估表明,该方法可以在不牺牲性能的情况下显著降低内存需求,甚至可以在数据受限的情况下充当一种正则化方法。 AI
影响 减少 KV 缓存内存占用,可能降低 Transformer 模型的服务成本。
排序理由 学术论文,提出了一种用于优化 Transformer 模型推理的新颖方法。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →