研究人员推出了SleepWalk,这是一个旨在严格测试AI模型指令引导的视觉语言导航能力的新基准。该基准具有三级难度系统,专注于3D环境中本地化、以交互为中心的具身推理。对前沿视觉语言模型的初步评估显示出重大挑战,特别是在复杂指令、遮挡下的空间推理和交互约束方面,这表明需要进一步推进基础多模态推理和具身智能体。 AI
影响 提供了一个新的评估框架,以推动具身AI和基础多模态推理的进步。
排序理由 该集群包含一篇介绍新AI评估基准的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →