English(EN) MM-Nav: Multi-View VLA Model for Robust Visual Navigation via Multi-Expert Learning

MM-Nav：多视图VLA模型增强视觉导航能力

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-30 04:00

研究人员开发了MM-Nav，一种新颖的多视图视觉-语言-动作（VLA）模型，旨在实现鲁棒的视觉导航。该模型利用预训练的大型语言和视觉基础模型，通过合成专家数据以师生方式进行训练。该系统从三个强化学习专家在不同环境中收集数据，动态平衡训练比例以优化到达、挤压和避障任务的性能。实验表明，MM-Nav 实现了强大的泛化能力，并且优于其专家教师，实际测试证实了其有效性。 AI

影响这项研究通过集成VLA模型，推动了视觉导航领域的发展，有望提高机器人在复杂环境中的自主性。

排序理由该集群包含一篇详细介绍新模型和方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Tianyu Xu, Jiawei Chen, Jiazhao Zhang, Wenyao Zhang, Zekun Qi, Minghan Li, Zhizheng Zhang, He Wang · 2026-06-30 04:00

MM-Nav：通过多专家学习实现鲁棒视觉导航的多视图VLA模型

arXiv:2510.03142v2 Announce Type: replace-cross Abstract: Visual navigation policy is widely regarded as a promising direction, as it mimics humans by using egocentric visual observations for navigation. However, optical information of visual observations is difficult to be expli…

报道来源 [1]

MM-Nav：通过多专家学习实现鲁棒视觉导航的多视图VLA模型

相关实体

相关话题