研究人员已经证明,分析经验神经切线核(eNTK)可以揭示训练过的神经网络中的特征方向。该方法在1层MLP和1层Transformer上进行了测试,结果表明eNTK的顶部特征空间与真实或可解释的特征对齐。对于预训练语言模型Gemma-3-270M,eNTK的特征向量在语法特征上的对齐效果优于模型激活上的PCA,这表明eNTK特征值分析可作为一种机制可解释性工具。 AI
影响 引入了一种理解模型内部表征的新技术,可能有助于可解释性研究。
排序理由 学术论文,详细介绍了一种分析神经网络特征的新方法。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →