研究人员开发了一个新的框架来评估以自我为中心的视频中的音频幻觉,即模型从视觉线索推断出实际未听到的声音。他们的研究发现,像 Qwen2.5 Omni 这样的先进视听语言模型 (AV-LLMs) 表现出显著的幻觉率。该团队策划了一个包含 300 个视频的数据集,并创建了 1,000 个以声音为重点的问题来探查模型输出,将幻觉分为前景动作声音和背景环境声音。 AI
影响 强调了对 AV-LLMs 中的幻觉进行稳健评估的必要性,以提高其可靠性。
排序理由 该集群包含一篇学术论文,详细介绍了 AV-LLMs 音频幻觉的新评估框架。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →