English(EN) Language Model Circuits Are Sparse in the Neuron Basis

语言模型神经元被发现是稀疏的，有助于可解释性

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-12 04:00

研究人员已经证明，语言模型MLP层内的神经元表现出的稀疏度与稀疏自编码器（SAE）相当。这一发现使得开发用于电路追踪的基于梯度的管道成为可能，从而能够识别出具有因果效应的神经元。该方法已成功识别出约100个MLP神经元组成的电路，用于控制模型在主谓一致任务上的行为，并揭示了用于多跳城市-州-首都任务的推理步骤的特定神经元集，在没有额外训练成本的情况下推进了自动化可解释性。 AI

影响通过表明MLP神经元与SAE一样稀疏，推进了语言模型的自动化可解释性，从而无需额外训练即可进行电路追踪。

排序理由这是一篇详细介绍理解语言模型可解释性新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Aryaman Arora, Zhengxuan Wu, Jacob Steinhardt, Sarah Schwettmann · 2026-06-12 04:00

语言模型神经元基底中的稀疏电路

arXiv:2601.22594v2 Announce Type: replace-cross Abstract: The high-level concepts that a neural network uses to perform computation need not be aligned to individual neurons (Smolensky, 1986). Language model interpretability research has thus turned to techniques which decompose …

报道来源 [1]

语言模型神经元基底中的稀疏电路

相关实体

相关话题