English(EN) P2DNav: Panorama-to-Downview Reasoning for Zero-shot Vision-and-Language Navigation

P2DNav框架增强零样本视觉语言导航

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-19 10:18

研究人员推出P2DNav，一个旨在提高具身智能体零样本视觉语言导航能力的新分层框架。该系统将导航分解为两个不同的阶段：从全景视图中选择方向，然后使用俯视图像在该方向内进行指令接地。P2DNav还包含一个滑动窗口对话记忆来管理导航历史，以及一个反思性重新定向机制来评估接地可靠性，从而增强在未知环境中的决策能力。 AI

影响引入了一个新颖的框架，显著提高了零样本视觉语言导航任务的性能。

排序理由该集群包含一篇详细介绍特定AI研究问题新框架的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Qijun Chen · 2026-05-19 10:18

P2DNav：全景到俯视推理，用于零样本视觉与语言导航

Vision-and-language navigation (VLN) requires an embodied agent to ground natural-language instructions into executable navigation actions in unseen environments. Existing zero-shot methods typically rely on additional waypoint prediction modules, which often entangle high-level …

报道来源 [1]

P2DNav：全景到俯视推理，用于零样本视觉与语言导航

相关话题