English(EN) Exploring Audio Hallucination in Egocentric Video Understanding

新框架揭示以自我为中心的视频模型中的音频幻觉

作者 PulseAugur 编辑部 · [1 个来源] · 2026-04-28 04:00

研究人员开发了一个新的框架来评估以自我为中心的视频中的音频幻觉，即模型从视觉线索推断出实际未听到的声音。他们的研究发现，像 Qwen2.5 Omni 这样的先进视听语言模型 (AV-LLMs) 表现出显著的幻觉率。该团队策划了一个包含 300 个视频的数据集，并创建了 1,000 个以声音为重点的问题来探查模型输出，将幻觉分为前景动作声音和背景环境声音。 AI

影响强调了对 AV-LLMs 中的幻觉进行稳健评估的必要性，以提高其可靠性。

排序理由该集群包含一篇学术论文，详细介绍了 AV-LLMs 音频幻觉的新评估框架。

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Ashish Seth, Xinhao Mei, Changsheng Zhao, Varun Nagaraja, Ernie Chang, Gregory P. Meyer, Gael Le Lan, Yunyang Xiong, Vikas Chandra, Yangyang Shi, Dinesh Manocha, Zhipeng Cai · 2026-04-28 04:00

探索以自我为中心的视频理解中的音频幻觉

arXiv:2604.23860v1 Announce Type: new Abstract: Egocentric videos provide a distinctive setting in which sound serves as crucial cues to understand user activities and surroundings, particularly when visual information is unstable or occluded due to continuous camera movement. St…

报道来源 [1]

探索以自我为中心的视频理解中的音频幻觉

相关实体

相关话题