新的4D模型通过几何约束增强机器人操作能力

作者 PulseAugur 编辑部 · [3 个来源] · 2026-05-25 04:00

研究人员通过增强具有几何理解能力的视频世界模型，开发了新的机器人操作方法。GEM-4D将4D对应监督注入生成模型，以确保运动一致性和物理基础，将实际操作成功率从61%提高到81%。另外，GAF使用高斯动作场来表示4D中的动态场景，从而能够直接从感知运动的表示中进行动作推理，并将操作成功率提高了7.3%。这两种方法都旨在弥合逼真视频生成与可靠机器人任务执行之间的差距。 AI

影响通过先进的4D建模技术提高视觉感知和动作预测能力，从而增强机器人操作能力。

排序理由两篇研究论文介绍了使用4D表示和视频世界模型中的几何约束进行机器人操作的新颖方法。

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 3 个来源。我们如何撰写摘要 →

报道来源 [3]

arXiv cs.CV TIER_1 English(EN) · Jiaxu Wang, Yicheng Jiang, Tianlun He, Jingkai Sun, Qiang Zhang, Junhao He, Jiahang Cao, Zesen Gan, Mingyuan Sun, Qiming Shao, Xiangyu Yue · 2026-05-27 04:00

MVISTA-4D：具有用于机器人操作的测试时动作推理的视图一致性4D世界模型

arXiv:2602.09878v2 Announce Type: replace Abstract: World-model-based imagine-then-act becomes a promising paradigm for robotic manipulation, yet existing approaches typically support either purely image-based forecasting or reasoning over partial 3D geometry, limiting their abil…
arXiv cs.CV TIER_1 English(EN) · Kaichen Zhou, Yuzhen Chen, Fangneng Zhan, Hang Hua, Grace Chen, Xinhai Chang, Ao Qu, Yilun Du, Zhuang Liu, Paul Pu Liang, Mengyu Wang · 2026-05-25 04:00

GEM-4D: 增强几何的视频世界模型用于机器人操控

arXiv:2605.22882v1 Announce Type: new Abstract: Video world models can generate realistic futures from a single instruction, but they often fail to preserve consistent point-level motion over time. As a result, the generated videos appear plausible, yet lack the physical groundin…
arXiv cs.CV TIER_1 English(EN) · Ying Chai, Litao Deng, Ruizhi Shao, Jiajun Zhang, Kangchen Lv, Liangjun Xing, Xiang Li, Hongwen Zhang, Yebin Liu · 2026-05-25 04:00

GAF：高斯动作场作为动态世界建模的四维表征，用于机器人操作

arXiv:2506.14135v5 Announce Type: replace-cross Abstract: Accurate scene perception is critical for vision-based robotic manipulation. Existing approaches typically follow either a Vision-to-Action (V-A) paradigm, predicting actions directly from visual inputs, or a Vision-to-3D-…

报道来源 [3]

MVISTA-4D：具有用于机器人操作的测试时动作推理的视图一致性4D世界模型

GEM-4D: 增强几何的视频世界模型用于机器人操控

GAF：高斯动作场作为动态世界建模的四维表征，用于机器人操作

相关实体

相关话题