English(EN) Why Do Accumulated Transformations Extrapolate?

累积变换可改善LLM长度外推能力，但在极端情况下会下降

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-25 04:00

研究人员调查了累积变换在注意力机制中的外推能力，特别研究了用累积的、依赖数据的Householder反射替换RoPE的位置索引旋转如何影响性能。他们的发现表明，虽然这些累积变换可以改善长度外推能力，但在极端上下文长度下性能最终会下降。该研究还探讨了一种使用累积的、依赖令牌的旋转的简化变体，该变体表现出类似的行为。理论分析表明，累积的正交变换在有限步数后会导致不连贯，限制了对远距离令牌的注意力，并创建了一个有限的混合窗口。 AI

影响调查了当前注意力机制在处理极端上下文长度方面的局限性，可能指导未来的架构改进。

排序理由学术论文，详细介绍了注意力机制的理论和实验结果。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Mahesh Godavarti · 2026-06-25 04:00

Why Do Accumulated Transformations Extrapolate?

arXiv:2606.24975v1 Announce Type: cross Abstract: PaTH Attention showed that replacing RoPE's position-indexed rotations with accumulated data-dependent Householder reflections yields strong length extrapolation, though performance degrades at extreme context lengths. We ask whet…

报道来源 [1]

Why Do Accumulated Transformations Extrapolate?

相关实体

相关话题