研究人员推出了AVI-Bench,一个旨在评估全模态多模态大语言模型(Omni-MLLMs)视听智能的新基准。该基准使用需要联合视听理解的任务,在感知、理解和推理阶段评估模型。一个扩展版本AVI-Bench-PriSe,通过不熟悉的刺激进一步测试鲁棒性,以评估超出典型训练数据的泛化能力。实验表明,当前的全模态大语言模型在视听智能方面存在显著局限性。 AI
影响 为评估和改进多模态AI模型的视听能力提供了一个新框架。
排序理由 该集群包含一篇介绍新AI模型评估基准的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →