English(EN) Features of SAEs are universal - but only up to an unknown random rotation

研究人员发现 AI 模型学习相同的特征，但处于旋转后的基底中

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-31 13:11

研究人员发现，虽然相同架构的独立训练的 Transformer 模型学习到的特征相似，但它们的内部激活表示会以随机量进行旋转。这种“多态性”意味着在一个模型中识别出的特征在另一个模型中是无法理解的，除非进行校正。将在一个模型上训练的稀疏自编码器 (SAE) 应用于另一个模型会导致灾难性的重建失败，但这可以通过一次矩阵乘法来对齐基底来修复。 AI

影响理解内部模型表示可能有助于提高 AI 系统的可解释性和可控性。

排序理由详细介绍内部模型表示新发现的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 LessWrong (AI tag) 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

LessWrong (AI tag) TIER_1 English(EN) · Jordan McCann · 2026-05-31 13:11

SAEs的特征是通用的——但仅限于未知随机旋转

<h1><b><span>Features of SAEs are universal - but only up to an unknown random rotation</span></b></h1><p><i><span>Cross-model decoder-column cosine says that two models learned the same features. Apply the SAE of one model to the activations of another, and its reconstruction sc…

报道来源 [1]

SAEs的特征是通用的——但仅限于未知随机旋转

相关实体

相关话题