English(EN) Unstable Features, Reproducible Subspaces: Understanding Seed Dependence in Sparse Autoencoders

稀疏自编码器显示稳定特征携带大部分信号

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-10 14:32

研究人员调查了稀疏自编码器（SAE）所学特征的可复现性，SAE常用于解释神经网络表征。他们的研究揭示了一种显著的不对称性：稳定特征对于重建和预测至关重要，而不稳定特征影响很小，并且经常由表面模式触发。从几何上看，不稳定特征虽然在不同训练运行中单独不可复现，但倾向于聚集在可复现的低维子空间内，这表明种子依赖性通常源于特征表征的模糊性，而非纯粹的随机性。通过聚合跨种子的独特特征，研究人员能够构建更稳定的SAE。 AI

影响识别出解释神经网络表征中的一个关键挑战，并提出了改进特征稳定性和可解释性的方法。

排序理由这是一篇发表在arXiv上的研究论文，详细介绍了关于稀疏自编码器的发现。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Daniil Gavrilov · 2026-06-10 14:32

不稳定的特征、可复现的子空间：理解稀疏自编码器中的种子依赖性

Sparse autoencoders (SAEs) are widely used to interpret neural network representations, but their utility depends on whether the learned features are reproducible across training runs. We study this question through \emph{feature stability}: for each SAE feature, we estimate the …

报道来源 [1]

不稳定的特征、可复现的子空间：理解稀疏自编码器中的种子依赖性

相关实体

相关话题