English(EN) CoSPlan: Corrective Sequential Planning via Scene Graph Incremental Updates

新的CoSPlan基准挑战视觉规划任务中的视觉语言模型

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-30 04:00

研究人员推出了CoSPlan，这是一个旨在评估视觉语言模型（VLM）在视觉领域顺序规划能力的新基准。与基于文本的规划不同，CoSPlan要求模型执行一系列视觉动作，检测错误步骤并进行纠正以达到目标场景。尽管采用了思维链（Chain-of-Thought）和场景图（Scene Graphs）等高级策略，VLM在CoSPlan上仍面临挑战。为解决此问题，该论文提出了场景图增量更新（SGI），一种无需训练的方法，可优化文本场景图以进行分步推理，在CoSPlan上平均提高了4.4%，并能泛化到PlanBench和VQA。 AI

影响引入了一个新的基准，以推动视觉语言模型在复杂视觉规划任务中的能力。

排序理由该集群包含一篇详细介绍用于评估AI模型的新基准和方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Shresth Grover, Priyank Pathak, Akash Kumar, Yogesh S Rawat · 2026-06-30 04:00

CoSPlan：通过场景图增量更新进行纠正性顺序规划

arXiv:2512.10342v3 Announce Type: replace Abstract: Vision Language Models (VLMs) have shown promising planning capabilities, yet their success remains confined to the text domain, leaving visual decision-making relatively underexplored. Addressing this gap, we introduce Correcti…

报道来源 [1]

CoSPlan：通过场景图增量更新进行纠正性顺序规划

相关实体

相关话题