PulseAugur
实时 18:28:57
English(EN) On the Expressive Power of Contextual Relations in Transformers

新测度理论框架解释了Transformer的表现力

研究人员引入了一个新的测度理论框架,以理解Transformer架构在建模上下文关系方面的表现力。该框架将标准softmax注意力与熵正则化最优传输联系起来,将注意力视为一种归一化亲和函数。该研究建立了一个通用逼近定理,证明了Transformer可以逼近任意的上下文关系规则,并且归一化方法会影响这些关系的表示。 AI

影响 为Transformer的能力提供了理论基础,可能指导未来的架构改进。

排序理由 学术论文,介绍了理解Transformer架构的新理论框架。

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新测度理论框架解释了Transformer的表现力

报道来源 [1]

  1. arXiv cs.LG TIER_1 English(EN) · Demi\'an Fraiman ·

    On the Expressive Power of Contextual Relations in Transformers

    arXiv:2603.25860v2 Announce Type: replace-cross Abstract: Transformer architectures have achieved remarkable empirical success in modeling contextual relations, yet a clear understanding of their expressive power is still lacking. In this work, we introduce a measure-theoretic fr…