研究人员开发了一种新方法,通过聚类注意力头共激活统计数据来发现大语言模型中的电路。这种方法被称为“闭环验证电路发现”,使用因果消融来确认这些已识别的组件组是否确实作为电路运行。该方法已在 Pythia 1B 和 OLMo 1B 等模型上进行了测试,证明了其在识别统计上显著的电路方面的有效性,同时也显示了其在混合专家模型中的局限性。 AI
影响 这项研究为理解大语言模型的内部机制提供了一种更严谨的方法,有望提高安全性和可靠性。
排序理由 该集群包含一篇学术论文,详细介绍了用于大语言模型可解释性的新研究方法。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →