English(EN) Measuring Cross-Modal Synergy: A Benchmark for VLM Explainability

新指标衡量视觉语言模型协同作用

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-22 04:00

研究人员引入了一种名为协同忠实度（$\mathcal{F}_{syn}$）的新指标，以更好地评估视觉语言模型（VLM）的可解释性。当前方法常常失效，因为VLM仅凭文本就能回答视觉问题，导致评估结果相互矛盾。这种基于Shapley交互指数的新指标能够准确分离模态间的联合贡献，并且比现有方法速度显著更快。使用$\mathcal{F}_{syn}$进行的评估表明，许多VLM可解释性方法过分强调视觉显著性，并且在捕捉真正的跨模态协同作用方面，其表现不如基于注意力的方法。 AI

影响为审计VLM推理提供了一个更严谨的框架，这对于在高风险应用中的安全部署至关重要。

排序理由学术论文，介绍了一种用于VLM可解释性的新评估指标。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Jo\"el Roman Ky, Salah Ghamizi, Maxime Cordy · 2026-05-22 04:00

衡量跨模态协同效应：VLM可解释性基准测试

arXiv:2605.22168v1 Announce Type: cross Abstract: Vision-Language Models (VLMs) map complex visual inputs to semantic spaces, but interpreting the cross-modal reasoning of VLMs currently relies on post-hoc explainers evaluated via unimodal perturbation metrics. We expose a limita…

报道来源 [1]

衡量跨模态协同效应：VLM可解释性基准测试

相关实体

相关话题