PulseAugur
实时 08:45:17
English(EN) Language Model Circuits Are Sparse in the Neuron Basis

语言模型神经元被发现是稀疏的,有助于可解释性

研究人员已经证明,语言模型MLP层内的神经元表现出的稀疏度与稀疏自编码器(SAE)相当。这一发现使得开发用于电路追踪的基于梯度的管道成为可能,从而能够识别出具有因果效应的神经元。该方法已成功识别出约100个MLP神经元组成的电路,用于控制模型在主谓一致任务上的行为,并揭示了用于多跳城市-州-首都任务的推理步骤的特定神经元集,在没有额外训练成本的情况下推进了自动化可解释性。 AI

影响 通过表明MLP神经元与SAE一样稀疏,推进了语言模型的自动化可解释性,从而无需额外训练即可进行电路追踪。

排序理由 这是一篇详细介绍理解语言模型可解释性新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Aryaman Arora, Zhengxuan Wu, Jacob Steinhardt, Sarah Schwettmann ·

    Language Model Circuits Are Sparse in the Neuron Basis

    arXiv:2601.22594v2 Announce Type: replace-cross Abstract: The high-level concepts that a neural network uses to perform computation need not be aligned to individual neurons (Smolensky, 1986). Language model interpretability research has thus turned to techniques which decompose …