PulseAugur
实时 19:58:05

新的4D模型通过几何约束增强机器人操作能力

研究人员通过增强具有几何理解能力的视频世界模型,开发了新的机器人操作方法。GEM-4D将4D对应监督注入生成模型,以确保运动一致性和物理基础,将实际操作成功率从61%提高到81%。另外,GAF使用高斯动作场来表示4D中的动态场景,从而能够直接从感知运动的表示中进行动作推理,并将操作成功率提高了7.3%。这两种方法都旨在弥合逼真视频生成与可靠机器人任务执行之间的差距。 AI

影响 通过先进的4D建模技术提高视觉感知和动作预测能力,从而增强机器人操作能力。

排序理由 两篇研究论文介绍了使用4D表示和视频世界模型中的几何约束进行机器人操作的新颖方法。

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

报道来源 [2]

  1. arXiv cs.CV TIER_1 · Kaichen Zhou, Yuzhen Chen, Fangneng Zhan, Hang Hua, Grace Chen, Xinhai Chang, Ao Qu, Yilun Du, Zhuang Liu, Paul Pu Liang, Mengyu Wang ·

    GEM-4D: Geometry-Enhanced Video World Models for Robot Manipulation

    arXiv:2605.22882v1 Announce Type: new Abstract: Video world models can generate realistic futures from a single instruction, but they often fail to preserve consistent point-level motion over time. As a result, the generated videos appear plausible, yet lack the physical groundin…

  2. arXiv cs.CV TIER_1 · Ying Chai, Litao Deng, Ruizhi Shao, Jiajun Zhang, Kangchen Lv, Liangjun Xing, Xiang Li, Hongwen Zhang, Yebin Liu ·

    GAF: Gaussian Action Field as a 4D Representation for Dynamic World Modeling in Robotic Manipulation

    arXiv:2506.14135v5 Announce Type: replace-cross Abstract: Accurate scene perception is critical for vision-based robotic manipulation. Existing approaches typically follow either a Vision-to-Action (V-A) paradigm, predicting actions directly from visual inputs, or a Vision-to-3D-…