研究人员提出高斯核注意力作为标准Transformer注意力的无投影替代方案。

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-05 04:00

研究人员引入了高斯核注意力（GKA），这是一种旨在取代Transformer中标准点积注意力的创新机制。GKA利用高斯径向基函数核直接计算token亲和度，无需学习线性投影。这种方法可以被解释为归一化核回归，将Transformer与经典滤波方法联系起来。在语言建模中的评估表明，GKA模型在参数更少、训练计算量更少的情况下，取得了与标准注意力基线相当的性能。 AI

影响引入了一种新的注意力机制，可能为Transformer模型提供不同的准确性和效率权衡。

排序理由这是一篇详细介绍Transformer新注意力机制的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Debarshi Kundu, Archisman Ghosh, Swaroop Ghosh, Vasant Honavar · 2026-05-05 04:00

Projection-Free Transformers via Gaussian Kernel Attention

arXiv:2605.02144v1 Announce Type: new Abstract: Self-attention in Transformers is typically implemented as $\mathrm{softmax}(QK^\top/\sqrt{d})V$, where $Q=XW_Q$, $K=XW_K$, and $V=XW_V$ are learned linear projections of the input $X$. We ask whether these learned projections are n…

报道来源 [1]

Projection-Free Transformers via Gaussian Kernel Attention

相关实体

相关话题