研究人员开发了 Dr. SHAP-AV,一个利用 Shapley 值分析视听语音识别模型如何平衡声学和视觉信息的框架。在六个模型和不同噪声水平下的实验表明,虽然模型在嘈杂条件下会增加视觉依赖性,但音频贡献仍然很重要。分析还揭示了模态平衡在语音生成过程中会发生变化,并且信噪比是模态加权的主要驱动因素,这表明当前模型存在持续的音频偏见。 AI
影响 提供了一个诊断工具,用于理解和潜在地提高视听人工智能系统的鲁棒性。
排序理由 学术论文,详细介绍了一个分析模型行为的新框架。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →