研究人员引入了 Switch Attention (SwiAttn),这是一种新颖的混合Transformer架构,旨在解决长上下文语言建模中标准全注意力机制的计算瓶颈问题。SwiAttn 动态地将每个 token 的计算路由到用于全局上下文的全注意力分支或用于局部模式的滑动窗口分支,从而实现更有效的资源分配。该方法通过持续预训练进行了优化,并在常规和长上下文长度的众多基准测试中进行了测试,证明了其有效性。 AI
影响 引入了一种更高效的Transformer注意力机制,有可能实现更长的上下文窗口和更快的处理速度。
排序理由 这是一篇介绍Transformer架构新方法的学术论文。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →