PulseAugur
实时 05:10:38
English(EN) CoSPlan: Corrective Sequential Planning via Scene Graph Incremental Updates

新的CoSPlan基准挑战视觉规划任务中的视觉语言模型

研究人员推出了CoSPlan,这是一个旨在评估视觉语言模型(VLM)在视觉领域顺序规划能力的新基准。与基于文本的规划不同,CoSPlan要求模型执行一系列视觉动作,检测错误步骤并进行纠正以达到目标场景。尽管采用了思维链(Chain-of-Thought)和场景图(Scene Graphs)等高级策略,VLM在CoSPlan上仍面临挑战。为解决此问题,该论文提出了场景图增量更新(SGI),一种无需训练的方法,可优化文本场景图以进行分步推理,在CoSPlan上平均提高了4.4%,并能泛化到PlanBench和VQA。 AI

影响 引入了一个新的基准,以推动视觉语言模型在复杂视觉规划任务中的能力。

排序理由 该集群包含一篇详细介绍用于评估AI模型的新基准和方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新的CoSPlan基准挑战视觉规划任务中的视觉语言模型

报道来源 [1]

  1. arXiv cs.CV TIER_1 English(EN) · Shresth Grover, Priyank Pathak, Akash Kumar, Yogesh S Rawat ·

    CoSPlan:通过场景图增量更新进行纠正性顺序规划

    arXiv:2512.10342v3 Announce Type: replace Abstract: Vision Language Models (VLMs) have shown promising planning capabilities, yet their success remains confined to the text domain, leaving visual decision-making relatively underexplored. Addressing this gap, we introduce Correcti…