研究人员发现视觉语言模型(VLMs)在视觉路径跟随方面存在显著的故障模式。即使是先进的VLMs也难以持续地追踪指定路径,经常切换到附近视觉上相似的替代路径。这种被称为“局部竞争”的问题,尽管付出了扩大模型规模、引入推理能力或提供明确追踪指令的努力,仍然存在。该问题不仅限于受控环境,还影响到现实世界中的场景,例如缠绕的电缆和地铁地图。 AI
影响 识别出视觉语言模型在需要精确视觉导航的任务中的关键故障,可能影响机器人和自主系统。
排序理由 该集群包含一篇学术论文,详细介绍了现有模型局限性的一项新发现。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →