研究人员发现了一个关键原因,解释了为什么Transformer模型难以学习某些函数(例如PARITY)。研究表明,即使这些函数可以被Transformer表示,所需的特定参数设置仅占据参数空间中极小的区域。这使得随机初始化极不可能发现这些设置,从而有效地使标准Transformer架构无法学习此类函数。 AI
影响 识别出Transformer架构的一个基本局限性,可能指导未来模型设计以提高学习能力。
排序理由 阐述Transformer模型理论局限性的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →