English(EN) Functional Equivalence in Attention: A Comprehensive Study with Applications to Linear Mode Connectivity

新研究探讨 Transformer 注意力机制中的功能等价性

作者 PulseAugur 编辑部 · [2 个来源] · 2026-06-16 11:59

一篇新的 arXiv 论文正式研究了 Transformer 模型中注意力机制的功能等价性。该研究区分了正弦和旋转位置编码（RoPE），证明 RoPE 显著减少了对称性，从而增强了模型的表达能力。这一发现为 RoPE 的实际成功提供了理论解释，并强调了其对线性模式连通性的影响。 AI

影响为 Transformer 中旋转位置编码的有效性提供了理论基础。

排序理由该集群包含一篇发表在 arXiv 上的研究论文，详细介绍了关于 AI 模型架构的理论发现。

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.AI TIER_1 English(EN) · Viet-Hoang Tran, Vinh Khanh Bui, Van-Hoan Trinh, Tan Lai Ngoc, Tan M. Nguyen · 2026-06-17 04:00

Functional Equivalence in Attention: A Comprehensive Study with Applications to Linear Mode Connectivity

arXiv:2606.17830v1 Announce Type: cross Abstract: Neural network parameter spaces are inherently non-injective, as distinct parameter configurations can realize identical functions through functional equivalence. While this symmetry is well understood in classical fully connected…
arXiv cs.AI TIER_1 English(EN) · Tan M. Nguyen · 2026-06-16 11:59

Functional Equivalence in Attention: A Comprehensive Study with Applications to Linear Mode Connectivity

Neural network parameter spaces are inherently non-injective, as distinct parameter configurations can realize identical functions through functional equivalence. While this symmetry is well understood in classical fully connected and convolutional models, it becomes substantiall…