English(EN) RoPE Distinguishes Neither Positions Nor Tokens in Long Contexts, Provably

研究发现RoPE位置嵌入在长上下文模型中失效

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-15 01:16

一项新的理论分析揭示了旋转位置嵌入（RoPE）在用于长上下文Transformer模型时存在的根本性局限性。研究证明，随着上下文长度的增加，RoPE区分相邻和遥远位置的能力，以及其Token相关性的一致性，会下降到50%的概率，类似于随机猜测。调整RoPE参数可以在牺牲位置区分能力的情况下改善Token区分能力，但无法同时改善两者，这表明未来的长上下文模型需要新颖的位置编码机制。 AI

影响指出了长上下文模型位置编码的核心局限性，并暗示了对新架构方法的需要。

排序理由学术论文，对Transformer模型中的一个组件进行理论分析。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Hao Peng · 2026-05-15 01:16

RoPE 在长上下文环境中无法区分位置或 Token，可证

We identify intrinsic limitations of Rotary Positional Embeddings (RoPE) in Transformer-based long-context language models. Our theoretical analysis abstracts away from the specific content of the context and depends only on its length. We prove that as context length increases, …

报道来源 [1]

RoPE 在长上下文环境中无法区分位置或 Token，可证

相关实体

相关话题