研究人员开发了一个新框架,用于区分大型视觉语言模型 (LVLMs) 中的视觉解读和事实回忆能力。现有的评估方法常常将这两种能力混淆,使得评估真正的视觉推理变得困难。使用反事实可视化素养评估对 15 个最先进的 LVLMs 进行的实验表明,当出现冲突时,许多模型比依赖视觉证据更依赖事实先验,这种行为与人类测试对象不同。 AI
影响 这项研究突显了评估 LVLMs 的一个关键差距,表明当前的基准测试可能高估了它们的视觉推理能力,并强调了对更稳健的评估方法的需求。
排序理由 学术论文,介绍了一个用于评估 LVLMs 的新框架和基准。 [lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →