English(EN) Understanding and Improving Length Generalization in Hierarchical Sparse Attention Models

理解和改进分层稀疏注意力模型中的长度泛化

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-01 04:00

研究人员确定了三个关键设计原则，这些原则对于增强分层稀疏注意力模型中的长度泛化至关重要。这些原则包括使用带有CLS token的表达性块编码器进行表示，使用绕行残差路径整合全局信息而不覆盖局部上下文，以及在预训练期间强制执行选择稀疏性。通过实施这些组件，在4K上下文长度上训练的模型已成功泛化到RULER和BABILong等基准测试的3200万个token，为无需训练的长度外推设定了新的最先进水平。 AI

影响为无需训练的长度外推设定了新的最先进水平，使模型能够处理显著更长的上下文。

排序理由这是一篇详细介绍语言模型架构改进的研究论文。

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Jiaqi Leng, Xiang Hu, Junxiong Wang, Jianguo Li, Wei Wu, Yucheng Lu · 2026-05-01 04:00

理解和改进分层稀疏注意力模型中的长度泛化能力

arXiv:2510.17196v3 Announce Type: replace-cross Abstract: Effectively processing long contexts is a critical challenge for language models. While standard Transformers are limited by quadratic complexity and poor length extrapolation, alternative architectures like sliding window…

报道来源 [1]

理解和改进分层稀疏注意力模型中的长度泛化能力

相关实体

相关话题