English(EN) Flexformer: Flexible Linear Transformer with Learnable Attention Kernel

Flexformer 引入可学习注意力核以实现高效Transformer

作者 PulseAugur 编辑部 · [2 个来源] · 2026-06-26 06:08

研究人员推出了一种新颖的线性Transformer架构Flexformer，旨在克服传统Transformer的二次复杂度限制。Flexformer通过以数据驱动的方式学习注意力核来实现这一点，利用具有可训练频谱频率的随机傅里叶特征。这种方法具有更强的表达能力，并在语言建模和序列分类任务上展现出优于现有方法的性能。此外，Flexformer可以从预训练Transformer中蒸馏，并有望实现高效的长序列处理。 AI

影响这项研究可能带来更高效的Transformer模型，能够处理更长的序列，并可能影响各种NLP应用。

排序理由该集群描述了一篇介绍新模型架构（Flexformer）及其在基准任务上性能的最新研究论文。

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.AI TIER_1 English(EN) · Haoran Zhang, Feng Zhou · 2026-06-29 04:00

Flexformer: Flexible Linear Transformer with Learnable Attention Kernel

arXiv:2606.27748v1 Announce Type: cross Abstract: Transformer models rely on attention mechanism to capture long-range dependencies but suffer from quadratic complexity, limiting their scalability to long sequences. Kernel-based linear attention reduces this complexity but typica…
arXiv cs.AI TIER_1 English(EN) · Feng Zhou · 2026-06-26 06:08

Flexformer：具有可学习注意力核的灵活线性Transformer

Transformer models rely on attention mechanism to capture long-range dependencies but suffer from quadratic complexity, limiting their scalability to long sequences. Kernel-based linear attention reduces this complexity but typically relies on fixed or weakly learnable kernels, r…

报道来源 [2]

Flexformer: Flexible Linear Transformer with Learnable Attention Kernel

Flexformer：具有可学习注意力核的灵活线性Transformer

相关实体

相关话题