研究人员推出MuseBench,一个旨在评估多模态大语言模型(MLLMs)艺术理解能力的新基准。该基准包含超过4000个跨越不同视听艺术形式(包括电影、视觉艺术和游戏设计)的问题,侧重于对创意选择背后原因的推理,而非仅仅识别。目前最先进的多模态大语言模型在此领域表现出显著差距,最佳模型准确率仅为48.29%,而人类专家的准确率为87.18%。 AI
影响 凸显了多模态大语言模型在理解艺术意图方面存在的关键差距,为未来开发更细致的AI能力指明了研究方向。
排序理由 发布一篇介绍用于评估多模态大语言模型艺术理解能力新基准的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →