PulseAugur
实时 07:36:34
实体 Jiaqi Leng

Jiaqi Leng

PulseAugur coverage of Jiaqi Leng — every cluster mentioning Jiaqi Leng across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_11786 ·

    理解和改进分层稀疏注意力模型中的长度泛化

    研究人员确定了三个关键设计原则,这些原则对于增强分层稀疏注意力模型中的长度泛化至关重要。这些原则包括使用带有CLS token的表达性块编码器进行表示,使用绕行残差路径整合全局信息而不覆盖局部上下文,以及在预训练期间强制执行选择稀疏性。通过实施这些组件,在4K上下文长度上训练的模型已成功泛化到RULER和BABILong等基准测试的3200万个token,为无需训练的长度外推设定了新的最先进水平。