研究人员开发了两个新框架DEGround和MCM-VG,以改进以自我为中心的3D视觉基础(ego-centric 3D visual grounding),这是具身智能的关键任务。DEGround利用一个同质化管道,在检测和基础之间共享对象表示,提高了效率和性能。MCM-VG通过建立多个一致的2D-3D映射来实现精确的定位并减少空间冗余,从而解决了零样本3D视觉基础的挑战。这两种方法在各种基准测试中都取得了最先进的结果,显著优于以前的方法。 AI
影响 3D视觉基础的进步可能会加速更强大的具身AI代理和机器人的开发。
排序理由 两篇新的学术论文介绍了用于3D视觉基础任务的新颖框架。
AI 生成摘要 · Google Gemini · 来自 3 个来源。 我们如何撰写摘要 →