PulseAugur
实时 21:16:13
English(EN) Measuring Cross-Modal Synergy: A Benchmark for VLM Explainability

新指标衡量视觉语言模型协同作用

研究人员引入了一种名为协同忠实度($\mathcal{F}_{syn}$)的新指标,以更好地评估视觉语言模型(VLM)的可解释性。当前方法常常失效,因为VLM仅凭文本就能回答视觉问题,导致评估结果相互矛盾。这种基于Shapley交互指数的新指标能够准确分离模态间的联合贡献,并且比现有方法速度显著更快。使用$\mathcal{F}_{syn}$进行的评估表明,许多VLM可解释性方法过分强调视觉显著性,并且在捕捉真正的跨模态协同作用方面,其表现不如基于注意力的方法。 AI

影响 为审计VLM推理提供了一个更严谨的框架,这对于在高风险应用中的安全部署至关重要。

排序理由 学术论文,介绍了一种用于VLM可解释性的新评估指标。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.LG TIER_1 English(EN) · Jo\"el Roman Ky, Salah Ghamizi, Maxime Cordy ·

    衡量跨模态协同效应:VLM可解释性基准测试

    arXiv:2605.22168v1 Announce Type: cross Abstract: Vision-Language Models (VLMs) map complex visual inputs to semantic spaces, but interpreting the cross-modal reasoning of VLMs currently relies on post-hoc explainers evaluated via unimodal perturbation metrics. We expose a limita…