Suomi(FI) Key-Value Means

键值均值注意力机制提供 O(N) Transformer 性能

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-11 02:04

研究人员推出了一种新的 Transformer 注意力机制——键值均值（KVM），它可以处理固定大小和不断增长的状态。当使用固定大小的缓存实现时，KVM 充当一个 O(N) 的分块 RNN，参数增加极少。可增长的 KVM 缓存版本在长上下文任务上表现出竞争力，提供亚二次预填充时间和亚线性状态增长。该方法与标准操作兼容，支持分块并行训练，并在预填充时间复杂度和内存使用之间提供灵活的权衡。 AI

影响引入了一种新颖的注意力机制，提高了 Transformer 在长上下文任务上的效率。

排序理由详细介绍新模型架构的学术论文发表。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 Suomi(FI) · Eugene Cheah · 2026-05-11 02:04

键值对的含义

We present Key-Value Means ("KVM"), a novel block-recurrence for attention that can accommodate either fixed-size or growing state. Equipping a strong transformer baseline with fixed-size KVM attention layers yields a strong $O(N)$ chunked RNN, while adding only an insignificant …

报道来源 [1]

键值对的含义

相关实体

相关话题