PulseAugur
实时 10:38:16

新方法改进了长序列模型的状态跟踪

研究人员开发了一种用于序列模型状态跟踪的新颖方法,解决了在处理长序列、非阿贝尔变换方面的局限性。他们的方法,即一种“held-out transition-pair falsifier”(暂译:预留转移对伪造器),可以训练模型即使在长达 1,048,576 个 token 的序列中也能准确预测最终状态。该技术在受控基准测试中显著优于 GRU 和 SSM 等标准基线,证明了投影非交换状态组合作为归纳偏置对于复杂、长距离依赖性的价值。 AI

影响 引入了一种用于改进序列模型在长序列任务上性能的新颖技术,可能影响需要复杂状态跟踪的领域。

排序理由 该集群包含一篇详细介绍序列模型新方法的学术论文。

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

报道来源 [2]

  1. arXiv cs.LG TIER_1 English(EN) · Jeonghoon Lee ·

    用于长视界非阿贝尔状态跟踪的保持转换对伪造器

    arXiv:2606.07254v1 Announce Type: new Abstract: State tracking exposes a sharp limitation of sequence models: the relevant signal is often not a summary of observed tokens, but an ordered latent state that evolves through non-commutative transformations. We introduce a held-out t…

  2. arXiv cs.LG TIER_1 English(EN) · Jeonghoon Lee ·

    用于长时程非阿贝尔状态跟踪的保持转换对伪证器

    State tracking exposes a sharp limitation of sequence models: the relevant signal is often not a summary of observed tokens, but an ordered latent state that evolves through non-commutative transformations. We introduce a held-out transition-pair falsifier for finite non-Abelian …