PulseAugur
实时 15:53:29
English(EN) Keyless Attention: Value-Space Routing and Value-Only Caching for Efficient Transformers

无键注意力机制将KV缓存减半,提高Transformer效率

研究人员推出了一种新颖的Transformer注意力机制——无键注意力(Keyless Attention),该机制完全消除了键投影,仅基于查询(queries)和值(values)进行操作。与标准注意力相比,这种方法产生了一个仅值缓存(Value-Only Cache),将KV缓存内存和访问开销减半,同时保持或提高了解码吞吐量。该机制还实现了深度注意力因子分解(Depth-m Attention Factorization),实验表明,在多个模型和架构上,无键注意力在困惑度(perplexity)方面与标准QKV注意力相当或超越,并在常识推理基准测试中表现更优。 AI

影响 这种新颖的注意力机制有望显著降低大型语言模型的计算成本和内存需求,从而可能加速推理并支持更大的上下文窗口。

排序理由 该集群包含一篇详细介绍用于提高Transformer效率的新颖技术方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

无键注意力机制将KV缓存减半,提高Transformer效率

报道来源 [1]

  1. arXiv cs.CL TIER_1 English(EN) · Xin Gao ·

    无钥匙注意力:值空间路由和仅值缓存用于高效 Transformer

    We propose Keyless Attention, an attention mechanism that eliminates the key projection entirely, operating over queries and values only. This yields a Value-Only Cache that reduces KV cache memory and access overhead by exactly 50% over standard attention, while matching or exce…