PulseAugur
实时 09:01:43
English(EN) Understanding the Parameter Space Geometry of Transformers Encoding Boolean Functions

Transformer参数空间几何结构阻碍了对敏感函数的学习

研究人员发现了一个关键原因,解释了为什么Transformer模型难以学习某些函数(例如PARITY)。研究表明,即使这些函数可以被Transformer表示,所需的特定参数设置仅占据参数空间中极小的区域。这使得随机初始化极不可能发现这些设置,从而有效地使标准Transformer架构无法学习此类函数。 AI

影响 识别出Transformer架构的一个基本局限性,可能指导未来模型设计以提高学习能力。

排序理由 阐述Transformer模型理论局限性的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.LG TIER_1 English(EN) · Blanka K\"over, Alexandra Butoi, Anej Svete, Michael Hahn, Ryan Cotterell ·

    理解Transformer编码布尔函数的参数空间几何

    arXiv:2606.08768v1 Announce Type: new Abstract: Transformers consistently fail to learn certain simple functions that are provably expressible with specific parameter settings. This gap between learnability and expressivity is particularly prominent for sensitive functions -- fun…