研究人员推出了CoSPlan,这是一个旨在评估视觉语言模型(VLM)在视觉领域顺序规划能力的新基准。与基于文本的规划不同,CoSPlan要求模型执行一系列视觉动作,检测错误步骤并进行纠正以达到目标场景。尽管采用了思维链(Chain-of-Thought)和场景图(Scene Graphs)等高级策略,VLM在CoSPlan上仍面临挑战。为解决此问题,该论文提出了场景图增量更新(SGI),一种无需训练的方法,可优化文本场景图以进行分步推理,在CoSPlan上平均提高了4.4%,并能泛化到PlanBench和VQA。 AI
影响 引入了一个新的基准,以推动视觉语言模型在复杂视觉规划任务中的能力。
排序理由 该集群包含一篇详细介绍用于评估AI模型的新基准和方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]
- arXiv
- CoSPlan
- PlanBench
- Priyank Pathak
- Scene Graph Incremental updates
- Scene Graphs
- vision-language model
- visual question answering
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →