PulseAugur
实时 02:28:28
实体 SwiAttn

SwiAttn

PulseAugur coverage of SwiAttn — every cluster mentioning SwiAttn across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_06711 ·

    Switch Attention 在全注意力与滑动窗口注意力之间动态路由

    研究人员引入了 Switch Attention (SwiAttn),这是一种新颖的混合Transformer架构,旨在解决长上下文语言建模中标准全注意力机制的计算瓶颈问题。SwiAttn 动态地将每个 token 的计算路由到用于全局上下文的全注意力分支或用于局部模式的滑动窗口分支,从而实现更有效的资源分配。该方法通过持续预训练进行了优化,并在常规和长上下文长度的众多基准测试中进行了测试,证明了其有效性。