研究人员发现了一个称为“多态性”的现象,在独立训练的Transformer中,它们计算相同的函数,但使用不同的内部坐标系,这些坐标系是彼此旋转的版本。这种在SO(d_model)内均匀随机的旋转使得模型之间的内部表示难以理解。然而,使用正交Procrustes拟合的单个矩阵乘法可以对齐这些基,从而无需重新训练即可在模型之间转移特征字典和引导向量。 AI
影响 揭示了独立训练的模型可以通过旋转的内部表示计算相同的函数,这表明了学习到的特征在模型之间具有潜在的可转移性。
排序理由 该集群包含一篇详细介绍Transformer模型内部新发现的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →