研究人员推出了MindEdit-Bench,一个旨在评估视觉语言模型(VLM)物体级反事实空间推理能力的新基准。该基准使用通过智能手机拍摄的日常室内场景照片三元组,并采用自动流水线进行3D场景图提取。它包括探究感知和视角转换的任务,以及专注于空间编辑和跨视图可见性编辑的新任务,这些任务的正确答案不在输入图像中。对15个VLM的初步测试显示,与人类表现相比,准确率显著降低,突显了它们在进行反事实空间推理方面的巨大差距。 AI
影响 突显了VLM能力的一个关键差距,可能指导未来研究朝着更强大的空间理解方向发展。
排序理由 该集群描述了一个用于评估AI模型的新学术基准。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →