研究人员引入了一个名为“元游戏”的新框架,用于量化模型解释中的二阶交互效应。该框架通过将归因方法视为一个合作博弈并计算其Shapley值,来衡量一个特征的归因对另一个特征的定向影响。元游戏理论上表明归因可以被分层分解为元归因,并在实践中证明了其在分析语言模型中的token交互、视觉-语言模型中的跨模态相似性以及文本到图像Transformer中的概念方面的效用。 AI
影响 引入了一种分析AI模型解释中复杂交互的新方法,有望提高透明度和调试能力。
排序理由 该集群包含一篇详细介绍AI模型新可解释性框架的学术论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →