研究人员开发了一种名为 Three-Step Nav 的新分层规划器,以改进零样本视觉与语言导航 (VLN) 代理。该方法使用三视图协议来解决当前由 MLLM 驱动的 VLN 系统中常见的漂移和过早停止等问题。通过向前查看地标、当前查看子目标对齐、向后查看审核轨迹,Three-Step Nav 在无需额外训练的情况下提高了导航精度。 AI
影响 提高了使用多模态大语言模型的代理的零样本导航精度。
排序理由 这是一篇详细介绍视觉与语言导航新方法的学术论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →