English(EN) Understanding the Parameter Space Geometry of Transformers Encoding Boolean Functions

Transformer参数空间几何结构阻碍了对敏感函数的学习

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-09 04:00

研究人员发现了一个关键原因，解释了为什么Transformer模型难以学习某些函数（例如PARITY）。研究表明，即使这些函数可以被Transformer表示，所需的特定参数设置仅占据参数空间中极小的区域。这使得随机初始化极不可能发现这些设置，从而有效地使标准Transformer架构无法学习此类函数。 AI

影响识别出Transformer架构的一个基本局限性，可能指导未来模型设计以提高学习能力。

排序理由阐述Transformer模型理论局限性的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Blanka K\"over, Alexandra Butoi, Anej Svete, Michael Hahn, Ryan Cotterell · 2026-06-09 04:00

理解Transformer编码布尔函数的参数空间几何

arXiv:2606.08768v1 Announce Type: new Abstract: Transformers consistently fail to learn certain simple functions that are provably expressible with specific parameter settings. This gap between learnability and expressivity is particularly prominent for sensitive functions -- fun…

报道来源 [1]

理解Transformer编码布尔函数的参数空间几何

相关实体

相关话题