研究人员开发了一种新方法,通过将轨迹预测重构为逆向运动学问题来接地驾驶视觉语言模型(VLA)。该方法需要当前和未来的视觉状态,解决了现有VLA仅使用当前状态而导致捷径问题的局限性。新方法包含一个下一视觉状态预测目标和一个专用的逆向运动学网络,使得一个0.5B规模的模型能够达到与规模大得多的7B-8B VLA相当的性能。 AI
影响 这种接地驾驶VLA的新方法可能带来更强大、更具视觉感知能力的自动驾驶系统。
排序理由 该集群包含一篇详细介绍AI模型新研究方法的学术论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →