English(EN) Constructing Interpretable Features from Compositional Neuron Groups

研究人员开发SNMF用于可解释的LLM特征分析

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-05 04:00

研究人员开发了一种新方法，通过分解MLP激活来理解大型语言模型的内部工作原理。这种技术，半非负矩阵分解（SNMF），识别出稀疏组合的共激活神经元的可解释特征，并将它们映射到激活它们的输入。在Llama 3.1、Gemma 2和GPT-2等模型上的实验表明，SNMF衍生的特征在因果控制方面比现有方法更有效，揭示了模型激活空间中的分层结构。 AI

影响引入了一种新颖、可解释的方法来剖析LLM内部，有望提高模型理解和调试能力。

排序理由这是一篇详细介绍LLM激活分析新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Or Shafran, Atticus Geiger, Mor Geva · 2026-05-05 04:00

从组合神经元组构建可解释特征

arXiv:2506.10920v2 Announce Type: replace Abstract: A central goal for mechanistic interpretability has been to identify the right units of analysis in large language models (LLMs) that causally explain their outputs. While early work focused on individual neurons, evidence that …

报道来源 [1]

从组合神经元组构建可解释特征

相关实体

相关话题