PulseAugur
实时 22:27:05
English(EN) Polymorphism Is Rotation: Operational Mechanistic Interpretability from a Two-Layer Transformer to Pythia-70m

研究人员发现独立训练的Transformer通过随机旋转计算相同函数

研究人员发现了一个称为“多态性”的现象,在独立训练的Transformer中,它们计算相同的函数,但使用不同的内部坐标系,这些坐标系是彼此旋转的版本。这种在SO(d_model)内均匀随机的旋转使得模型之间的内部表示难以理解。然而,使用正交Procrustes拟合的单个矩阵乘法可以对齐这些基,从而无需重新训练即可在模型之间转移特征字典和引导向量。 AI

影响 揭示了独立训练的模型可以通过旋转的内部表示计算相同的函数,这表明了学习到的特征在模型之间具有潜在的可转移性。

排序理由 该集群包含一篇详细介绍Transformer模型内部新发现的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Jordan F. McCann ·

    Polymorphism Is Rotation: Operational Mechanistic Interpretability from a Two-Layer Transformer to Pythia-70m

    arXiv:2605.24577v1 Announce Type: cross Abstract: Independently trained transformers compute the same function in residual-stream bases that differ by a uniform random rotation on $\mathrm{SO}(d_{\mathrm{model}})$. We call this phenomenon polymorphism: same function, mutually uni…