English(EN) Beyond Text Following: Repairable Arbitration Reversals in Audio-Language Models

音频-语言模型压制清晰音频证据

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-04 04:00

研究人员发现音频-语言模型存在一个重大问题，即冲突的文本输入会覆盖清晰的音频证据，导致输出不正确。一项研究发现，在超过64%的冲突案例中，当移除文本后，模型的偏好会转向支持音频，这表明音频信息是存在的但被压制了。为了解决这个问题，开发了一种名为门控音频反事实对数校正（GACL）的新解码规则，该规则提高了模型的忠实度，并且无需重新训练即可应用。 AI

影响突出了当前音频-语言模型的一个关键缺陷，可能影响其在实际应用中的可靠性，并指导未来的研究。

排序理由该集群包含一篇学术论文，详细介绍了关于音频-语言模型行为的新发现，并提出了一种纠正方法。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Yichen Gao, Yiqun Zhang, Zijing Wang, Yujia Li, Heng Guo, Xi Wu, Xiaocui Yang, Shi Feng, Yifei Zhang, Daling Wang · 2026-06-04 04:00

Beyond Text Following: Repairable Arbitration Reversals in Audio-Language Models

arXiv:2606.05161v1 Announce Type: cross Abstract: Audio-language models (ALMs) often follow text that conflicts with audio, even when the audio evidence is clear. This raises a basic question: is the audio-supported answer unavailable, or is it represented but overridden by the c…

报道来源 [1]

Beyond Text Following: Repairable Arbitration Reversals in Audio-Language Models

相关实体

相关话题