PulseAugur
实时 18:58:02
Suomi(FI) Key-Value Means

键值均值注意力机制提供 O(N) Transformer 性能

研究人员推出了一种新的 Transformer 注意力机制——键值均值(KVM),它可以处理固定大小和不断增长的状态。当使用固定大小的缓存实现时,KVM 充当一个 O(N) 的分块 RNN,参数增加极少。可增长的 KVM 缓存版本在长上下文任务上表现出竞争力,提供亚二次预填充时间和亚线性状态增长。该方法与标准操作兼容,支持分块并行训练,并在预填充时间复杂度和内存使用之间提供灵活的权衡。 AI

影响 引入了一种新颖的注意力机制,提高了 Transformer 在长上下文任务上的效率。

排序理由 详细介绍新模型架构的学术论文发表。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

键值均值注意力机制提供 O(N) Transformer 性能

报道来源 [1]

  1. arXiv cs.CL TIER_1 Suomi(FI) · Eugene Cheah ·

    Key-Value Means

    We present Key-Value Means ("KVM"), a novel block-recurrence for attention that can accommodate either fixed-size or growing state. Equipping a strong transformer baseline with fixed-size KVM attention layers yields a strong $O(N)$ chunked RNN, while adding only an insignificant …