PulseAugur
实时 07:02:24

研究人员提出高斯核注意力作为标准Transformer注意力的无投影替代方案。

研究人员引入了高斯核注意力(GKA),这是一种旨在取代Transformer中标准点积注意力的创新机制。GKA利用高斯径向基函数核直接计算token亲和度,无需学习线性投影。这种方法可以被解释为归一化核回归,将Transformer与经典滤波方法联系起来。在语言建模中的评估表明,GKA模型在参数更少、训练计算量更少的情况下,取得了与标准注意力基线相当的性能。 AI

影响 引入了一种新的注意力机制,可能为Transformer模型提供不同的准确性和效率权衡。

排序理由 这是一篇详细介绍Transformer新注意力机制的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

研究人员提出高斯核注意力作为标准Transformer注意力的无投影替代方案。

报道来源 [1]

  1. arXiv cs.LG TIER_1 English(EN) · Debarshi Kundu, Archisman Ghosh, Swaroop Ghosh, Vasant Honavar ·

    Projection-Free Transformers via Gaussian Kernel Attention

    arXiv:2605.02144v1 Announce Type: new Abstract: Self-attention in Transformers is typically implemented as $\mathrm{softmax}(QK^\top/\sqrt{d})V$, where $Q=XW_Q$, $K=XW_K$, and $V=XW_V$ are learned linear projections of the input $X$. We ask whether these learned projections are n…