English(EN) On Subquadratic Architectures: From Applications to Principles

xLSTM 在序列建模任务中优于 Mamba-2 和 DeltaNet

作者 PulseAugur 编辑部 · [2 个来源] · 2026-06-10 17:33

一篇新的研究论文比较了三种亚二次方架构——xLSTM、Mamba-2 和 Gated DeltaNet——在序列建模任务上的表现。研究发现，在代码模型预训练、蒸馏和时间序列基础模型方面，xLSTM 的表现优于其他模型。研究人员将 xLSTM 的卓越性能归因于其通过门控方案实现的灵活且稳定的记忆校正能力，从而能够进行稳健的状态跟踪和累积。 AI

影响 xLSTM 在状态跟踪和记忆校正方面展示出的优势可能会影响未来序列模型的发展，从而可能带来更高效、更强大的 AI 系统。

排序理由该集群包含一篇比较不同模型架构的研究论文。

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.LG TIER_1 English(EN) · Anamaria-Roberta Hartl, Levente Z\'olyomi, David Stap, Pieter-Jan Hoedt, Niklas Schmidinger, Lukas Hauzenberger, Sebastian B\"ock, G\"unter Klambauer, Sepp Hochreiter · 2026-06-11 04:00

On Subquadratic Architectures: From Applications to Principles

arXiv:2606.12364v1 Announce Type: new Abstract: Transformers dominate modern sequence modeling, but their quadratic attention incurs substantial computational cost. Subquadratic architectures offer a scalable alternative. However, it remains unclear which designs yield the most e…
arXiv cs.LG TIER_1 English(EN) · Sepp Hochreiter · 2026-06-10 17:33

关于亚二次方架构：从应用到原理

Transformers dominate modern sequence modeling, but their quadratic attention incurs substantial computational cost. Subquadratic architectures offer a scalable alternative. However, it remains unclear which designs yield the most effective sequence models. We compare three leadi…

报道来源 [2]

On Subquadratic Architectures: From Applications to Principles

关于亚二次方架构：从应用到原理

相关实体

相关话题