研究人员已经证明,语言模型MLP层内的神经元表现出的稀疏度与稀疏自编码器(SAE)相当。这一发现使得开发用于电路追踪的基于梯度的管道成为可能,从而能够识别出具有因果效应的神经元。该方法已成功识别出约100个MLP神经元组成的电路,用于控制模型在主谓一致任务上的行为,并揭示了用于多跳城市-州-首都任务的推理步骤的特定神经元集,在没有额外训练成本的情况下推进了自动化可解释性。 AI
影响 通过表明MLP神经元与SAE一样稀疏,推进了语言模型的自动化可解释性,从而无需额外训练即可进行电路追踪。
排序理由 这是一篇详细介绍理解语言模型可解释性新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
- Language Model Circuits
- Lindsey et al.
- Marks et al.
- MLP neurons
- Smolensky
- Sparse Autoencoders (SAEs)
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →