研究人员发现音频-语言模型存在一个重大问题,即冲突的文本输入会覆盖清晰的音频证据,导致输出不正确。一项研究发现,在超过64%的冲突案例中,当移除文本后,模型的偏好会转向支持音频,这表明音频信息是存在的但被压制了。为了解决这个问题,开发了一种名为门控音频反事实对数校正(GACL)的新解码规则,该规则提高了模型的忠实度,并且无需重新训练即可应用。 AI
影响 突出了当前音频-语言模型的一个关键缺陷,可能影响其在实际应用中的可靠性,并指导未来的研究。
排序理由 该集群包含一篇学术论文,详细介绍了关于音频-语言模型行为的新发现,并提出了一种纠正方法。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →