New Shapley Value method explains multimodal AI models

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-09 04:00

研究人员开发了一种新颖的 Shapley 值扩展方法，用于解释多模态多语言模型（MLLMs）的行为。该框架通过将文本和音频数据视为合作特征并采用高效的估计策略以实现计算可行性，来解决整合文本和音频数据所面临的挑战。该方法包括一种新的预处理方法 Spectrogram-Guided Phonetic Alignment (SGPA)，用于将音频片段与文本对齐，并提供了一个带有 GUI 的开源软件包用于可视化。在 VoiceBench 和 Infinity Instruct 等数据集上的实验表明，输入模态对归因有显著影响，并且标准的解释性代理在多模态、跨语言环境中不足。 AI

影响为理解和可能调试复杂的多模态 AI 系统提供了一种新方法。

排序理由这是一篇详细介绍 AI 模型解释新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Pawe{\l} Pozorski, Jakub Muszy\'nski, Maria Ganzha · 2026-06-09 04:00

融合传统可解释性方法与多模态多语言模型：一项基于XAI的分析

arXiv:2606.07533v1 Announce Type: cross Abstract: Multimodal Large Language Models (MLLMs) effectively integrate text and audio to interpret context in complex interactive dialogues. However, the internal mechanisms by which heterogeneous modalities influence model behavior remai…

报道来源 [1]

融合传统可解释性方法与多模态多语言模型：一项基于XAI的分析

相关实体

相关话题