研究人员在 decoder-only Transformer 中识别出两个关键的架构组件,它们有助于模型区分绝对位置,尽管 RoPE 等位置编码方法主要编码相对偏移。这两个组件是因果掩码(其 softmax 分母本身就依赖于查询位置)和残差流(它在位置 0 处充当动态系统)。该研究分析了不同的架构选择(如 NTK 缩放和滑动窗口注意力)如何与这些组件相互作用,从而影响模型的绝对位置感知能力。 AI
影响 揭示了架构选择如何使 LLM 能够理解绝对位置,可能指导未来的模型设计。
排序理由 该集群包含一篇详细介绍 Transformer 架构新研究发现的学术论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →