English(EN) StateX: Enhancing RNN Recall via Post-training State Expansion

StateX 框架通过训练后状态扩展提升 RNN 记忆能力

作者 PulseAugur 编辑部 · [1 个来源] · 2026-04-27 04:00

研究人员开发了 StateX，一个旨在提高循环神经网络 (RNN) 记忆能力的训练后框架。该方法在不显著增加模型参数的情况下，有效地扩展了预训练 RNN（如线性注意力模型和状态空间模型）的状态。实验表明，StateX 在高达 13 亿参数的模型中提升了记忆能力和上下文学习性能，同时不影响其他功能。 AI

影响增强了 RNN 的记忆能力，可能提高需要长上下文理解的任务的性能。

排序理由这是一篇介绍用于改进 RNN 性能的新框架的研究论文。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Xingyu Shen, Yingfa Chen, Zhen Leng Thai, Xu Han, Zhiyuan Liu, Maosong Sun · 2026-04-27 04:00

StateX: Enhancing RNN Recall via Post-training State Expansion

arXiv:2509.22630v3 Announce Type: replace Abstract: Recurrent neural networks (RNNs), such as linear attention and state-space models, have gained popularity due to their constant per-token complexity when processing long contexts. However, these recurrent models struggle with ta…

报道来源 [1]

StateX: Enhancing RNN Recall via Post-training State Expansion

相关实体

相关话题