研究人员开发了一种名为相干性(coherence)的新方法,以提高深度神经网络的可解释性。这种几何特性受到大脑神经编码的启发,确保神经元响应状态空间的连续区域,类似于网格细胞的功能。通过使用一种名为Coh的可微分目标函数在训练过程中强制执行相干性,模型不仅学习到可解释的特征,还学习到一个可解释的特征空间。该方法已在合成和真实世界的数据集上得到验证,包括旋转的MNIST和BERT token embeddings,证明了其在使复杂模型更易于理解方面的有效性。 AI
影响 引入了一种新颖的几何方法来提高可解释性,有望增强对复杂AI模型的理解和信任度。
排序理由 这是一篇介绍新可解释性方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →