PulseAugur
实时 12:51:05
实体 sliding-window attention

sliding-window attention

PulseAugur coverage of sliding-window attention — every cluster mentioning sliding-window attention across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_72515 ·

    Transformer 模型通过因果掩码和残差流获得绝对位置感知能力

    研究人员在 decoder-only Transformer 中识别出两个关键的架构组件,它们有助于模型区分绝对位置,尽管 RoPE 等位置编码方法主要编码相对偏移。这两个组件是因果掩码(其 softmax 分母本身就依赖于查询位置)和残差流(它在位置 0 处充当动态系统)。该研究分析了不同的架构选择(如 NTK 缩放和滑动窗口注意力)如何与这些组件相互作用,从而影响模型的绝对位置感知能力。