PulseAugur
实时 09:29:03
English(EN) Inexact calculus of variations on the hyperspherical tangent bundle with connections to the attention mechanism

新论文将变分法与Transformer注意力机制联系起来

本文提出了一个理论框架,通过将变分法和拉格朗日优化联系起来,来理解Transformer模型中的注意力机制。作者在单位超球面流形及其切丛上探讨了这些概念,并提出了一些由于基于投影的技术和epsilon型扰动而被归类为近似的方法。该研究旨在将注意力机制分析为高维球体上token的流映射,并拓宽变分法在近似上下文中的数学视角。 AI

影响 为注意力机制提供了新颖的数学视角,可能影响深度学习领域的未来理论研究。

排序理由 学术论文发布在arXiv上。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新论文将变分法与Transformer注意力机制联系起来

报道来源 [1]

  1. arXiv cs.LG TIER_1 English(EN) · Andrew Gracyk ·

    Inexact calculus of variations on the hyperspherical tangent bundle with connections to the attention mechanism

    arXiv:2507.15431v4 Announce Type: replace Abstract: We offer a theoretical mathematical background through Lagrangian optimization on the unit hyperspherical manifold and its tangential structure. Our methods can be categorized as inexact since our methods are projection-based an…