PulseAugur
实时 08:12:18

新方法通过消融实验验证大语言模型电路

研究人员开发了一种新方法,通过聚类注意力头共激活统计数据来发现大语言模型中的电路。这种方法被称为“闭环验证电路发现”,使用因果消融来确认这些已识别的组件组是否确实作为电路运行。该方法已在 Pythia 1BOLMo 1B 等模型上进行了测试,证明了其在识别统计上显著的电路方面的有效性,同时也显示了其在混合专家模型中的局限性。 AI

影响 这项研究为理解大语言模型的内部机制提供了一种更严谨的方法,有望提高安全性和可靠性。

排序理由 该集群包含一篇学术论文,详细介绍了用于大语言模型可解释性的新研究方法。

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

报道来源 [2]

  1. arXiv cs.AI TIER_1 English(EN) · Yongzhong Xu ·

    注意力头中的闭合验证电路发现:共激活提出,消融处理

    arXiv:2606.09607v1 Announce Type: cross Abstract: Interpretability increasingly treats groups of components, not individual units, as the basic object, and proposes to find them by clustering co-activation statistics. We ask whether such a cheap signal actually identifies an atte…

  2. arXiv cs.AI TIER_1 English(EN) · Yongzhong Xu ·

    注意力头中的闭合验证电路发现:共激活提出,消融处理

    Interpretability increasingly treats groups of components, not individual units, as the basic object, and proposes to find them by clustering co-activation statistics. We ask whether such a cheap signal actually identifies an attention-head circuit. Adapting a sparse-autoencoder …