English(EN) Polymorphism Is Rotation: Operational Mechanistic Interpretability from a Two-Layer Transformer to Pythia-70m

研究人员发现独立训练的Transformer通过随机旋转计算相同函数

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-26 04:00

研究人员发现了一个称为“多态性”的现象，在独立训练的Transformer中，它们计算相同的函数，但使用不同的内部坐标系，这些坐标系是彼此旋转的版本。这种在SO(d_model)内均匀随机的旋转使得模型之间的内部表示难以理解。然而，使用正交Procrustes拟合的单个矩阵乘法可以对齐这些基，从而无需重新训练即可在模型之间转移特征字典和引导向量。 AI

影响揭示了独立训练的模型可以通过旋转的内部表示计算相同的函数，这表明了学习到的特征在模型之间具有潜在的可转移性。

排序理由该集群包含一篇详细介绍Transformer模型内部新发现的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Jordan F. McCann · 2026-05-26 04:00

多态即旋转：从两层Transformer到Pythia-70m的操作机制可解释性

arXiv:2605.24577v1 Announce Type: cross Abstract: Independently trained transformers compute the same function in residual-stream bases that differ by a uniform random rotation on $\mathrm{SO}(d_{\mathrm{model}})$. We call this phenomenon polymorphism: same function, mutually uni…

报道来源 [1]

多态即旋转：从两层Transformer到Pythia-70m的操作机制可解释性

相关实体

相关话题