新方法通过消融实验验证大语言模型电路

作者 PulseAugur 编辑部 · [2 个来源] · 2026-06-08 15:17

研究人员开发了一种新方法，通过聚类注意力头共激活统计数据来发现大语言模型中的电路。这种方法被称为“闭环验证电路发现”，使用因果消融来确认这些已识别的组件组是否确实作为电路运行。该方法已在 Pythia 1B 和 OLMo 1B 等模型上进行了测试，证明了其在识别统计上显著的电路方面的有效性，同时也显示了其在混合专家模型中的局限性。 AI

影响这项研究为理解大语言模型的内部机制提供了一种更严谨的方法，有望提高安全性和可靠性。

排序理由该集群包含一篇学术论文，详细介绍了用于大语言模型可解释性的新研究方法。

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.AI TIER_1 English(EN) · Yongzhong Xu · 2026-06-09 04:00

注意力头中的闭合验证电路发现：共激活提出，消融处理

arXiv:2606.09607v1 Announce Type: cross Abstract: Interpretability increasingly treats groups of components, not individual units, as the basic object, and proposes to find them by clustering co-activation statistics. We ask whether such a cheap signal actually identifies an atte…
arXiv cs.AI TIER_1 English(EN) · Yongzhong Xu · 2026-06-08 15:17

注意力头中的闭合验证电路发现：共激活提出，消融处理

Interpretability increasingly treats groups of components, not individual units, as the basic object, and proposes to find them by clustering co-activation statistics. We ask whether such a cheap signal actually identifies an attention-head circuit. Adapting a sparse-autoencoder …

报道来源 [2]

注意力头中的闭合验证电路发现：共激活提出，消融处理

注意力头中的闭合验证电路发现：共激活提出，消融处理

相关实体

相关话题