研究人员开发了 StereoPolicy,这是一个利用同步立体图像对来增强机器人操作的新框架。该方法通过基于交叉注意力的立体变换器(Stereo Transformer)隐式捕获深度和空间对应信息,无需显式且常有噪声的 3D 表示。StereoPolicy 集成了现有的基于扩散和视觉-语言-动作(VLA)的策略,在多个模拟基准测试和真实机器人任务中,与依赖单目、RGB-D 或点云输入的模型相比,表现得到提升。 AI
影响 通过改进立体视觉的几何推理能力,增强了机器人操作能力,有望在复杂环境中实现更精确可靠的自动化。
排序理由 该集群包含一篇详细介绍机器人操作新框架的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →