研究人员已经证明,即使只有两层,对于 transformer 来说,也无法获得可计算的长度泛化界限。这一发现解决了机器学习中的一个开放性问题,表明仅凭有限的训练数据,预测 transformer 在不同长度输入上的泛化性能是存在根本性限制的。该研究还为 transformer 语言的一个受限子集提供了一个可计算的界限,这相当于固定精度 transformer,表明它们的长度复杂度是指数级的。 AI
影响 证实了 transformer 泛化的理论限制,可能指导未来研究转向替代架构或训练方法。
排序理由 学术论文,详细说明了 transformer 模型的理论局限性。 [lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →