研究人员开发了一种新颖的 Shapley 值扩展方法,用于解释多模态多语言模型(MLLMs)的行为。该框架通过将文本和音频数据视为合作特征并采用高效的估计策略以实现计算可行性,来解决整合文本和音频数据所面临的挑战。该方法包括一种新的预处理方法 Spectrogram-Guided Phonetic Alignment (SGPA),用于将音频片段与文本对齐,并提供了一个带有 GUI 的开源软件包用于可视化。在 VoiceBench 和 Infinity Instruct 等数据集上的实验表明,输入模态对归因有显著影响,并且标准的解释性代理在多模态、跨语言环境中不足。 AI
影响 为理解和可能调试复杂的多模态 AI 系统提供了一种新方法。
排序理由 这是一篇详细介绍 AI 模型解释新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
- Infinity Instruct
- Multimodal Large Language Models
- Shapley Values
- Spectrogram-Guided Phonetic Alignment
- VoiceBench
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →