PulseAugur
实时 20:11:46
English(EN) Understanding and Improving Length Generalization in Hierarchical Sparse Attention Models

理解和改进分层稀疏注意力模型中的长度泛化

研究人员确定了三个关键设计原则,这些原则对于增强分层稀疏注意力模型中的长度泛化至关重要。这些原则包括使用带有CLS token的表达性块编码器进行表示,使用绕行残差路径整合全局信息而不覆盖局部上下文,以及在预训练期间强制执行选择稀疏性。通过实施这些组件,在4K上下文长度上训练的模型已成功泛化到RULER和BABILong等基准测试的3200万个token,为无需训练的长度外推设定了新的最先进水平。 AI

影响 为无需训练的长度外推设定了新的最先进水平,使模型能够处理显著更长的上下文。

排序理由 这是一篇详细介绍语言模型架构改进的研究论文。

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

理解和改进分层稀疏注意力模型中的长度泛化

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Jiaqi Leng, Xiang Hu, Junxiong Wang, Jianguo Li, Wei Wu, Yucheng Lu ·

    Understanding and Improving Length Generalization in Hierarchical Sparse Attention Models

    arXiv:2510.17196v3 Announce Type: replace-cross Abstract: Effectively processing long contexts is a critical challenge for language models. While standard Transformers are limited by quadratic complexity and poor length extrapolation, alternative architectures like sliding window…