PulseAugur
实时 07:05:54
English(EN) On Subquadratic Architectures: From Applications to Principles

xLSTM 在序列建模中优于 Mamba-2 和 Gated DeltaNet

一篇新的研究论文比较了三种亚二次架构——xLSTMMamba-2Gated DeltaNet——在序列建模任务上的表现。研究发现,xLSTM 在代码模型预训练、蒸馏和时间序列基础模型预训练方面优于其他模型。研究人员将 xLSTM 的优势归因于其通过门控方案实现的更灵活、更稳定的记忆校正能力,从而实现了强大的状态跟踪和累积。 AI

影响 xLSTM 在复杂序列任务中的卓越表现凸显了其在构建更高效、更有效的人工智能模型方面的潜力。

排序理由 比较模型架构和性能的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.LG TIER_1 English(EN) · Sepp Hochreiter ·

    关于亚二次方架构:从应用到原理

    Transformers dominate modern sequence modeling, but their quadratic attention incurs substantial computational cost. Subquadratic architectures offer a scalable alternative. However, it remains unclear which designs yield the most effective sequence models. We compare three leadi…