PulseAugur
实时 12:18:47

Transformers 缺乏可计算的长度泛化界限

研究人员已经证明,即使只有两层,对于 transformer 来说,也无法获得可计算的长度泛化界限。这一发现解决了机器学习中的一个开放性问题,表明仅凭有限的训练数据,预测 transformer 在不同长度输入上的泛化性能是存在根本性限制的。该研究还为 transformer 语言的一个受限子集提供了一个可计算的界限,这相当于固定精度 transformer,表明它们的长度复杂度是指数级的。 AI

影响 证实了 transformer 泛化的理论限制,可能指导未来研究转向替代架构或训练方法。

排序理由 学术论文,详细说明了 transformer 模型的理论局限性。 [lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.LG TIER_1 English(EN) · Andy Yang, Pascal Bergstr\"a{\ss}er, Georg Zetzsche, David Chiang, Anthony W. Lin ·

    Length Generalization Bounds for Transformers

    arXiv:2603.02238v2 Announce Type: replace Abstract: Length generalization is a key property of a learning algorithm that enables it to make correct predictions on inputs of any length, given finite training data. To provide such a guarantee, one needs to be able to compute a leng…