微软研究院推出了 GroundedPlanBench,这是一个旨在评估视觉语言模型(VLM)执行机器人操作长时任务规划能力的新基准。当前基于VLM的机器人规划器常常因自然语言指令的歧义以及动作和位置规划的分离而难以处理复杂任务。新的基准以及一个名为 Video-to-Spatially Grounded Planning (V2GP) 的框架,旨在通过使VLM能够共同确定要采取的动作及其发生地点来改进机器人规划,并在评估中优于分离式方法。 AI
排序理由 该集群描述了一篇研究论文中发布的机器人规划新基准和框架。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →