English(EN) From Mechanistic to Compositional Interpretability

新框架正式化神经网络可解释性

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-18 04:00

研究人员引入了一个名为组合性可解释性的新框架，该框架使用范畴论为理解神经网络行为提供了一种形式化且可验证的方法。该方法旨在通过将机制性解释定义为必须为了保持一致性而可交换的句法和语义映射对，来客观地比较和组合它们。该框架将解释质量分解为忠实度和复杂性，将可解释性视为一个优化问题，并提供了一种将模型重组为更简单、功能性部分的方法。这项工作将现有的机制性方法定位为精炼的子类，并为自动化这些解释的发现和评估提供了蓝图。 AI

影响提供了一种形式化、可验证的理解神经网络行为的方法，有望加速研究和开发。

排序理由该集群包含一篇详细介绍可解释性新框架的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

Ward Gauderis

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Ward Gauderis, Thomas Dooms, Steven T. Homer, Kola Ayonrinde, Geraint A. Wiggins · 2026-06-18 04:00

From Mechanistic to Compositional Interpretability

arXiv:2605.08934v2 Announce Type: replace Abstract: Mechanistic interpretability aims to explain neural model behaviour by reverse-engineering learned computational structure into human-understandable components. Without a formal framework, however, mechanistic explanations canno…

报道来源 [1]

From Mechanistic to Compositional Interpretability

相关话题