PulseAugur
实时 23:51:36
English(EN) StateX: Enhancing RNN Recall via Post-training State Expansion

StateX 框架通过训练后状态扩展提升 RNN 记忆能力

研究人员开发了 StateX,一个旨在提高循环神经网络 (RNN) 记忆能力的训练后框架。该方法在不显著增加模型参数的情况下,有效地扩展了预训练 RNN(如线性注意力模型和状态空间模型)的状态。实验表明,StateX 在高达 13 亿参数的模型中提升了记忆能力和上下文学习性能,同时不影响其他功能。 AI

影响 增强了 RNN 的记忆能力,可能提高需要长上下文理解的任务的性能。

排序理由 这是一篇介绍用于改进 RNN 性能的新框架的研究论文。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

StateX 框架通过训练后状态扩展提升 RNN 记忆能力

报道来源 [1]

  1. arXiv cs.CL TIER_1 English(EN) · Xingyu Shen, Yingfa Chen, Zhen Leng Thai, Xu Han, Zhiyuan Liu, Maosong Sun ·

    StateX: Enhancing RNN Recall via Post-training State Expansion

    arXiv:2509.22630v3 Announce Type: replace Abstract: Recurrent neural networks (RNNs), such as linear attention and state-space models, have gained popularity due to their constant per-token complexity when processing long contexts. However, these recurrent models struggle with ta…