研究人员开发了一种名为条件共消融(CoAx)的新方法,以更好地理解Transformer电路的功能,特别是当它们表现出自修复能力时。该技术解决了传统方法的一个局限性,即当主要组件被移除后,休眠的备份组件会接管,从而误导分析。CoAx通过测量主要组件集被移除后剩余单元的消融效应增加,从而揭示了关键的二阶交互作用。将其应用于GPT-2-small IOI电路,CoAx显著提高了备份头的恢复能力,优于现有方法,并验证了这些恢复的备份的因果作用。 AI
影响 提供了一种更准确的方法来理解和潜在地操纵复杂AI模型的行为。
排序理由 详细介绍一种新的机械可解释性方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
- Conditional Co-Ablation
- GPT-2 small
- Hugging Face
- IOI circuit
- mechanistic interpretability
- Transformer Circuits
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →