English(EN) On the Expressive Power of Contextual Relations in Transformers

新测度理论框架解释了Transformer的表现力

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-04 04:00

研究人员引入了一个新的测度理论框架，以理解Transformer架构在建模上下文关系方面的表现力。该框架将标准softmax注意力与熵正则化最优传输联系起来，将注意力视为一种归一化亲和函数。该研究建立了一个通用逼近定理，证明了Transformer可以逼近任意的上下文关系规则，并且归一化方法会影响这些关系的表示。 AI

影响为Transformer的能力提供了理论基础，可能指导未来的架构改进。

排序理由学术论文，介绍了理解Transformer架构的新理论框架。

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Demi\'an Fraiman · 2026-05-04 04:00

Transformer中上下文关系表达能力的探讨

arXiv:2603.25860v2 Announce Type: replace-cross Abstract: Transformer architectures have achieved remarkable empirical success in modeling contextual relations, yet a clear understanding of their expressive power is still lacking. In this work, we introduce a measure-theoretic fr…

报道来源 [1]

Transformer中上下文关系表达能力的探讨

相关实体

相关话题