研究人员确定了三个关键设计原则,这些原则对于增强分层稀疏注意力模型中的长度泛化至关重要。这些原则包括使用带有CLS token的表达性块编码器进行表示,使用绕行残差路径整合全局信息而不覆盖局部上下文,以及在预训练期间强制执行选择稀疏性。通过实施这些组件,在4K上下文长度上训练的模型已成功泛化到RULER和BABILong等基准测试的3200万个token,为无需训练的长度外推设定了新的最先进水平。 AI
影响 为无需训练的长度外推设定了新的最先进水平,使模型能够处理显著更长的上下文。
排序理由 这是一篇详细介绍语言模型架构改进的研究论文。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →