Transformers 缺乏可计算的长度泛化界限

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-02 04:00

研究人员已经证明，即使只有两层，对于 transformer 来说，也无法获得可计算的长度泛化界限。这一发现解决了机器学习中的一个开放性问题，表明仅凭有限的训练数据，预测 transformer 在不同长度输入上的泛化性能是存在根本性限制的。该研究还为 transformer 语言的一个受限子集提供了一个可计算的界限，这相当于固定精度 transformer，表明它们的长度复杂度是指数级的。 AI

影响证实了 transformer 泛化的理论限制，可能指导未来研究转向替代架构或训练方法。

排序理由学术论文，详细说明了 transformer 模型的理论局限性。 [lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

Transformers

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Andy Yang, Pascal Bergstr\"a{\ss}er, Georg Zetzsche, David Chiang, Anthony W. Lin · 2026-06-02 04:00

Transformers 的长度泛化界限

arXiv:2603.02238v2 Announce Type: replace Abstract: Length generalization is a key property of a learning algorithm that enables it to make correct predictions on inputs of any length, given finite training data. To provide such a guarantee, one needs to be able to compute a leng…

报道来源 [1]

Transformers 的长度泛化界限

相关实体

相关话题