English(EN) The Topological Trouble With Transformers

研究人员提出循环架构以改进 Transformer 的状态跟踪

作者 PulseAugur 编辑部 · [1 个来源] · 2026-04-29 04:00

一篇新论文提出，Transformer 的前馈架构从根本上限制了它们动态跟踪不断变化状态的能力。作者认为，这种限制迫使状态表示深入模型内部，最终耗尽模型的深度并导致信息不可访问。他们建议，与显式的思维痕迹相比，循环架构对于时间延展的认知是必要的，并提出了一种循环 Transformer 架构的分类法来解决这个问题。 AI

影响建议未来基础模型可能发生架构转变，以提高状态跟踪能力。

排序理由学术论文，讨论当前 Transformer 架构的局限性并提出新方向。

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Michael C. Mozer, Shoaib Ahmed Siddiqui, Rosanne Liu · 2026-04-29 04:00

The Topological Trouble With Transformers

arXiv:2604.17121v2 Announce Type: replace Abstract: Transformers encode structure in sequences via an expanding contextual history. However, their purely feedforward architecture fundamentally limits dynamic state tracking. State tracking -- the iterative updating of latent varia…

报道来源 [1]

The Topological Trouble With Transformers

相关实体

相关话题