English(EN) MuseBench: Benchmarking Intent-Level Audiovisual Arts Understanding in MLLMs

新的MuseBench基准揭示多模态大语言模型缺乏深层艺术理解能力

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-30 04:00

研究人员推出MuseBench，一个旨在评估多模态大语言模型（MLLMs）艺术理解能力的新基准。该基准包含超过4000个跨越不同视听艺术形式（包括电影、视觉艺术和游戏设计）的问题，侧重于对创意选择背后原因的推理，而非仅仅识别。目前最先进的多模态大语言模型在此领域表现出显著差距，最佳模型准确率仅为48.29%，而人类专家的准确率为87.18%。 AI

影响凸显了多模态大语言模型在理解艺术意图方面存在的关键差距，为未来开发更细致的AI能力指明了研究方向。

排序理由发布一篇介绍用于评估多模态大语言模型艺术理解能力新基准的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Yuxuan Fan, Gyusik Seo, Jing Hao, Jaemin Cho, Mohit Bansal, Jaehong Yoon · 2026-06-30 04:00

MuseBench：对 MLLM 中意图级视听艺术理解进行基准测试

arXiv:2606.30026v1 Announce Type: cross Abstract: Audiovisual arts encompass diverse creative disciplines, including cinema, visual arts, stage performance, and game design, where artistic meaning arises from deliberate combinations of visual, auditory, and narrative elements (e.…

报道来源 [1]

MuseBench：对 MLLM 中意图级视听艺术理解进行基准测试

相关实体

相关话题