研究人员引入了一种名为协同忠实度($\mathcal{F}_{syn}$)的新指标,以更好地评估视觉语言模型(VLM)的可解释性。当前方法常常失效,因为VLM仅凭文本就能回答视觉问题,导致评估结果相互矛盾。这种基于Shapley交互指数的新指标能够准确分离模态间的联合贡献,并且比现有方法速度显著更快。使用$\mathcal{F}_{syn}$进行的评估表明,许多VLM可解释性方法过分强调视觉显著性,并且在捕捉真正的跨模态协同作用方面,其表现不如基于注意力的方法。 AI
影响 为审计VLM推理提供了一个更严谨的框架,这对于在高风险应用中的安全部署至关重要。
排序理由 学术论文,介绍了一种用于VLM可解释性的新评估指标。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →