研究人员开发了 AgenticInterpBench,这是一个旨在评估语言模型 (LM) 代理在解释 Transformer 电路中局部组件方面的有效性的新基准。提出的 HyVE(假设、验证、解释)代理解释器通过观察、假设和验证组件来生成解释。虽然 HyVE 在各种 LM 主干模型上显示出潜力,但其性能受到验证循环中的挑战的限制,包括计划不完整和执行错误。对 Llama-3-8B 算术电路的案例研究表明,该方法适用于自然训练的模型,并强调验证是 LM 可靠解释电路的主要障碍。 AI
影响 这项研究通过实现自动电路解释,有可能加速对复杂 AI 模型的理解和调试。
排序理由 这是一篇详细介绍机械可解释性新基准和方法的 ist 研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →