一篇新论文认为,当前的视觉语言模型(VLMs)存在系统性的能动性缺失,阻碍了它们的隐式推理能力。作者提出,VLMs倾向于执行被动的语义检索,而不是人类视觉理解所必需的主动、情境化推理。为解决此问题,他们引入了视觉隐式推理诊断基准(V-IRD)来衡量这一缺失的象限,发现即使是主流的VLMs在自主视觉探索和关注自我导向的探究方面也存在困难。 AI
影响 强调了当前VLMs的一个关键差距,可能指导未来研究朝着更自主、更具探索性的AI系统发展。
排序理由 该集群包含一篇介绍新模型评估基准的学术论文。 [lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →