新的SleepWalk基准测试对AI视觉语言导航进行压力测试

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-09 04:00

研究人员推出了SleepWalk，这是一个旨在严格测试AI模型指令引导的视觉语言导航能力的新基准。该基准具有三级难度系统，专注于3D环境中本地化、以交互为中心的具身推理。对前沿视觉语言模型的初步评估显示出重大挑战，特别是在复杂指令、遮挡下的空间推理和交互约束方面，这表明需要进一步推进基础多模态推理和具身智能体。 AI

影响提供了一个新的评估框架，以推动具身AI和基础多模态推理的进步。

排序理由该集群包含一篇介绍新AI评估基准的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Niyati Rawal, Sushant Ravva, Shah Alam Abir, Saksham Jain, Aman Chadha, Vinija Jain, Suranjana Trivedy, Amitava Das · 2026-06-09 04:00

SleepWalk：一个用于压力测试指令引导视觉语言导航的三层基准

arXiv:2605.10376v2 Announce Type: replace Abstract: Vision-Language Models (VLMs) have advanced rapidly in multimodal perception and language understanding, yet it remains unclear whether they can reliably ground language into spatially coherent, plausibly executable actions in 3…

报道来源 [1]

SleepWalk：一个用于压力测试指令引导视觉语言导航的三层基准

相关话题