PulseAugur
实时 18:20:20
English(EN) Features of SAEs are universal - but only up to an unknown random rotation

研究人员发现 AI 模型学习相同的特征,但处于旋转后的基底中

研究人员发现,虽然相同架构的独立训练的 Transformer 模型学习到的特征相似,但它们的内部激活表示会以随机量进行旋转。这种“多态性”意味着在一个模型中识别出的特征在另一个模型中是无法理解的,除非进行校正。将在一个模型上训练的稀疏自编码器 (SAE) 应用于另一个模型会导致灾难性的重建失败,但这可以通过一次矩阵乘法来对齐基底来修复。 AI

影响 理解内部模型表示可能有助于提高 AI 系统的可解释性和可控性。

排序理由 详细介绍内部模型表示新发现的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 LessWrong (AI tag) 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

研究人员发现 AI 模型学习相同的特征,但处于旋转后的基底中

报道来源 [1]

  1. LessWrong (AI tag) TIER_1 English(EN) · Jordan McCann ·

    SAEs的特征是通用的——但仅限于未知随机旋转

    <h1><b><span>Features of SAEs are universal - but only up to an unknown random rotation</span></b></h1><p><i><span>Cross-model decoder-column cosine says that two models learned the same features. Apply the SAE of one model to the activations of another, and its reconstruction sc…