PulseAugur
实时 11:51:56
English(EN) Where does Absolute Position come from in decoder-only Transformers?

Transformer 模型通过因果掩码和残差流获得绝对位置感知能力

研究人员在 decoder-only Transformer 中识别出两个关键的架构组件,它们有助于模型区分绝对位置,尽管 RoPE 等位置编码方法主要编码相对偏移。这两个组件是因果掩码(其 softmax 分母本身就依赖于查询位置)和残差流(它在位置 0 处充当动态系统)。该研究分析了不同的架构选择(如 NTK 缩放和滑动窗口注意力)如何与这些组件相互作用,从而影响模型的绝对位置感知能力。 AI

影响 揭示了架构选择如何使 LLM 能够理解绝对位置,可能指导未来的模型设计。

排序理由 该集群包含一篇详细介绍 Transformer 架构新研究发现的学术论文。

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

报道来源 [2]

  1. arXiv cs.CL TIER_1 English(EN) · Valeria Ruscio, Umberto Nanni, Fabrizio Silvestri ·

    decoder-only Transformers 中的绝对位置来自哪里?

    arXiv:2606.06160v1 Announce Type: cross Abstract: RoPE-trained transformers distinguish absolute position in their attention patterns, even though RoPE encodes only relative offsets in the inner product. We trace this leakage to two architectural components, The causal mask is re…

  2. arXiv cs.AI TIER_1 English(EN) · Fabrizio Silvestri ·

    decoder-only Transformers 中的绝对位置来自何处?

    RoPE-trained transformers distinguish absolute position in their attention patterns, even though RoPE encodes only relative offsets in the inner product. We trace this leakage to two architectural components, The causal mask is responsible for the first: its per-query softmax den…