一篇新论文提出,Transformer 的前馈架构从根本上限制了它们动态跟踪不断变化状态的能力。作者认为,这种限制迫使状态表示深入模型内部,最终耗尽模型的深度并导致信息不可访问。他们建议,与显式的思维痕迹相比,循环架构对于时间延展的认知是必要的,并提出了一种循环 Transformer 架构的分类法来解决这个问题。 AI
影响 建议未来基础模型可能发生架构转变,以提高状态跟踪能力。
排序理由 学术论文,讨论当前 Transformer 架构的局限性并提出新方向。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →