研究人员开发了MM-Nav,一种新颖的多视图视觉-语言-动作(VLA)模型,旨在实现鲁棒的视觉导航。该模型利用预训练的大型语言和视觉基础模型,通过合成专家数据以师生方式进行训练。该系统从三个强化学习专家在不同环境中收集数据,动态平衡训练比例以优化到达、挤压和避障任务的性能。实验表明,MM-Nav 实现了强大的泛化能力,并且优于其专家教师,实际测试证实了其有效性。 AI
影响 这项研究通过集成VLA模型,推动了视觉导航领域的发展,有望提高机器人在复杂环境中的自主性。
排序理由 该集群包含一篇详细介绍新模型和方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]
- alphaXiv
- arXiv
- DagsHub
- Hugging Face
- Jiazhao Zhang
- MM-Nav
- reinforcement learning
- Vision-Language-Action (VLA)
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →