PulseAugur
实时 18:20:25
English(EN) Jordan-RoPE: Non-Semisimple Relative Positional Encoding via Complex Jordan Blocks

Jordan-RoPE: 通过复数约旦块实现的非半单相对位置编码

研究人员引入了 Jordan-RoPE,一种利用复数约旦块的 Transformer 模型新型相对位置编码方法。该方法生成振荡-多项式特征,实现了与 RoPEALiBi 等现有方法不同的距离调制相位基。虽然缩放精确变体在 WikiText-103 语言模型上比基线有所改进,但 RoPE+ALiBi 总体上仍然表现最强,表明 Jordan-RoPE 对特定任务具有结构优势。 AI

影响 引入了一种新的位置编码技术,该技术可能在涉及距离调制相位交互的特定语言建模任务中具有优势。

排序理由 这是一篇详细介绍 Transformer 模型中新位置编码方法的论文。

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

Jordan-RoPE: 通过复数约旦块实现的非半单相对位置编码

报道来源 [2]

  1. arXiv cs.LG TIER_1 English(EN) · Yaobo Zhang ·

    Jordan-RoPE: Non-Semisimple Relative Positional Encoding via Complex Jordan Blocks

    arXiv:2605.04217v1 Announce Type: new Abstract: Relative positional encodings determine which functions of query-key lag can enter the primitive attention logit. RoPE supplies a rotary phase, while ALiBi supplies an additive distance bias. Motivated by group-theoretic views of li…

  2. arXiv cs.CL TIER_1 English(EN) · Yaobo Zhang ·

    Jordan-RoPE: Non-Semisimple Relative Positional Encoding via Complex Jordan Blocks

    Relative positional encodings determine which functions of query-key lag can enter the primitive attention logit. RoPE supplies a rotary phase, while ALiBi supplies an additive distance bias. Motivated by group-theoretic views of linear translation-invariant positional encodings,…