PulseAugur
实时 11:01:03
English(EN) Do Transformers Need Three Projections? Systematic Study of QKV Variants

Transformer QKV 投影共享将 KV 缓存削减 97%

研究人员探索了 Transformer 架构的查询、键和值 (QKV) 投影的变体,以减少内存使用。他们的研究发现,共享投影,特别是 Q-K=V 变体,可以在对性能影响最小的情况下显著减小 KV 缓存大小。将这些投影共享技术与 GQA 和 MQA 等现有头共享方法相结合,可以大幅减少缓存,使设备端推理更加可行。 AI

影响 Transformer 中的投影共享显著降低了推理内存需求,从而能够更有效地在设备端部署。

排序理由 详细介绍模型架构变体系统研究的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Ali Kayyam, Anusha Madan Gopal, M Anthony Lewis ·

    Do Transformers Need Three Projections? Systematic Study of QKV Variants

    arXiv:2606.04032v1 Announce Type: cross Abstract: Transformers have become the standard solution for various AI tasks, with the query, key, and value (QKV) attention formulation playing a central role. However, the individual contribution of these three projections and the impact…