PulseAugur
实时 09:38:43
English(EN) On Subquadratic Architectures: From Applications to Principles

xLSTM 在序列建模任务中优于 Mamba-2 和 DeltaNet

一篇新的研究论文比较了三种亚二次方架构——xLSTMMamba-2Gated DeltaNet——在序列建模任务上的表现。研究发现,在代码模型预训练、蒸馏和时间序列基础模型方面,xLSTM 的表现优于其他模型。研究人员将 xLSTM 的卓越性能归因于其通过门控方案实现的灵活且稳定的记忆校正能力,从而能够进行稳健的状态跟踪和累积。 AI

影响 xLSTM 在状态跟踪和记忆校正方面展示出的优势可能会影响未来序列模型的发展,从而可能带来更高效、更强大的 AI 系统。

排序理由 该集群包含一篇比较不同模型架构的研究论文。

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

报道来源 [2]

  1. arXiv cs.LG TIER_1 English(EN) · Anamaria-Roberta Hartl, Levente Z\'olyomi, David Stap, Pieter-Jan Hoedt, Niklas Schmidinger, Lukas Hauzenberger, Sebastian B\"ock, G\"unter Klambauer, Sepp Hochreiter ·

    On Subquadratic Architectures: From Applications to Principles

    arXiv:2606.12364v1 Announce Type: new Abstract: Transformers dominate modern sequence modeling, but their quadratic attention incurs substantial computational cost. Subquadratic architectures offer a scalable alternative. However, it remains unclear which designs yield the most e…

  2. arXiv cs.LG TIER_1 English(EN) · Sepp Hochreiter ·

    关于亚二次方架构:从应用到原理

    Transformers dominate modern sequence modeling, but their quadratic attention incurs substantial computational cost. Subquadratic architectures offer a scalable alternative. However, it remains unclear which designs yield the most effective sequence models. We compare three leadi…