研究人员开发了一种名为条件协同消融(CoAx)的新方法,以更好地理解Transformer电路的功能,特别是当它们表现出自修复能力时。该技术解决了传统方法的一个局限性,即当主要组件被移除后,休眠的备份组件接管可能会误导分析。CoAx通过测量移除主要组件集后剩余单元的消融效应增加,从而揭示了关键的二阶交互作用。将其应用于GPT-2-small IOI电路,CoAx显著提高了备份头的恢复能力,优于现有方法,并验证了这些恢复的备份的因果作用。 AI
影响 提供了一种更准确的方法来理解和可能操纵复杂的AI模型行为。
排序理由 详细介绍一种新的机制可解释性方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
- Conditional Co-Ablation
- GPT-2 small
- Hugging Face
- IOI circuit
- mechanistic interpretability
- Transformer Circuits
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →