English(EN) AVI-Bench: Toward Human-like Audio-Visual Intelligence of Omni-MLLMs

新基准AVI-Bench揭示全模态大语言模型在视听智能方面的局限性

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-09 04:00

研究人员推出了AVI-Bench，一个旨在评估全模态多模态大语言模型（Omni-MLLMs）视听智能的新基准。该基准使用需要联合视听理解的任务，在感知、理解和推理阶段评估模型。一个扩展版本AVI-Bench-PriSe，通过不熟悉的刺激进一步测试鲁棒性，以评估超出典型训练数据的泛化能力。实验表明，当前的全模态大语言模型在视听智能方面存在显著局限性。 AI

影响为评估和改进多模态AI模型的视听能力提供了一个新框架。

排序理由该集群包含一篇介绍新AI模型评估基准的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Yaoting Wang, Ziyi Zhang, Wenming Tu, Shaoxuan Xu, Wenjie Du, Cheng Liang, Weijun Wang, Yuanchao Li, Guangyao Li, Hao Fei, Yuanchun Li, Henghui Ding, Yunxin Liu · 2026-06-09 04:00

AVI-Bench：迈向全模态大模型类人音视频智能

arXiv:2606.07643v1 Announce Type: cross Abstract: Recent advances in Omni-Multimodal Large Language Models (Omni-MLLMs) have enabled strong integration of vision, audio, and language. However, their audio-visual intelligence (AVI) remains insufficiently evaluated due to the lack …

报道来源 [1]

AVI-Bench：迈向全模态大模型类人音视频智能

相关话题