PulseAugur
实时 09:16:19
English(EN) The Topological Trouble With Transformers

研究人员提出循环架构以改进 Transformer 的状态跟踪

一篇新论文提出,Transformer 的前馈架构从根本上限制了它们动态跟踪不断变化状态的能力。作者认为,这种限制迫使状态表示深入模型内部,最终耗尽模型的深度并导致信息不可访问。他们建议,与显式的思维痕迹相比,循环架构对于时间延展的认知是必要的,并提出了一种循环 Transformer 架构的分类法来解决这个问题。 AI

影响 建议未来基础模型可能发生架构转变,以提高状态跟踪能力。

排序理由 学术论文,讨论当前 Transformer 架构的局限性并提出新方向。

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

研究人员提出循环架构以改进 Transformer 的状态跟踪

报道来源 [1]

  1. arXiv cs.LG TIER_1 English(EN) · Michael C. Mozer, Shoaib Ahmed Siddiqui, Rosanne Liu ·

    The Topological Trouble With Transformers

    arXiv:2604.17121v2 Announce Type: replace Abstract: Transformers encode structure in sequences via an expanding contextual history. However, their purely feedforward architecture fundamentally limits dynamic state tracking. State tracking -- the iterative updating of latent varia…