New 4D models boost robot manipulation with geometric grounding

By PulseAugur Editorial · [3 sources] · 2026-05-25 04:00

Researchers have developed new methods for robot manipulation by enhancing video world models with geometric understanding. GEM-4D injects 4D correspondence supervision into generative models to ensure consistent motion and physical grounding, improving real-world manipulation success rates from 61% to 81%. Separately, GAF uses Gaussian Action Fields to represent dynamic scenes in 4D, enabling direct action reasoning from motion-aware representations and boosting manipulation success rates by 7.3%. Both approaches aim to bridge the gap between realistic video generation and reliable robotic task execution. AI

IMPACT Enhances robot manipulation capabilities by improving visual perception and action prediction through advanced 4D modeling techniques.

RANK_REASON Two research papers introduce novel methods for robot manipulation using 4D representations and geometric grounding in video world models.

Read on arXiv cs.CV →

AI-generated summary · Google Gemini · from 3 sources. How we write summaries →

New 4D models boost robot manipulation with geometric grounding

COVERAGE [3]

arXiv cs.CV TIER_1 English(EN) · Jiaxu Wang, Yicheng Jiang, Tianlun He, Jingkai Sun, Qiang Zhang, Junhao He, Jiahang Cao, Zesen Gan, Mingyuan Sun, Qiming Shao, Xiangyu Yue · 2026-05-27 04:00

MVISTA-4D: View-Consistent 4D World Model with Test-Time Action Inference for Robotic Manipulation

arXiv:2602.09878v2 Announce Type: replace Abstract: World-model-based imagine-then-act becomes a promising paradigm for robotic manipulation, yet existing approaches typically support either purely image-based forecasting or reasoning over partial 3D geometry, limiting their abil…
arXiv cs.CV TIER_1 English(EN) · Kaichen Zhou, Yuzhen Chen, Fangneng Zhan, Hang Hua, Grace Chen, Xinhai Chang, Ao Qu, Yilun Du, Zhuang Liu, Paul Pu Liang, Mengyu Wang · 2026-05-25 04:00

GEM-4D: Geometry-Enhanced Video World Models for Robot Manipulation

arXiv:2605.22882v1 Announce Type: new Abstract: Video world models can generate realistic futures from a single instruction, but they often fail to preserve consistent point-level motion over time. As a result, the generated videos appear plausible, yet lack the physical groundin…
arXiv cs.CV TIER_1 English(EN) · Ying Chai, Litao Deng, Ruizhi Shao, Jiajun Zhang, Kangchen Lv, Liangjun Xing, Xiang Li, Hongwen Zhang, Yebin Liu · 2026-05-25 04:00

GAF: Gaussian Action Field as a 4D Representation for Dynamic World Modeling in Robotic Manipulation

arXiv:2506.14135v5 Announce Type: replace-cross Abstract: Accurate scene perception is critical for vision-based robotic manipulation. Existing approaches typically follow either a Vision-to-Action (V-A) paradigm, predicting actions directly from visual inputs, or a Vision-to-3D-…

COVERAGE [3]

MVISTA-4D: View-Consistent 4D World Model with Test-Time Action Inference for Robotic Manipulation

GEM-4D: Geometry-Enhanced Video World Models for Robot Manipulation

GAF: Gaussian Action Field as a 4D Representation for Dynamic World Modeling in Robotic Manipulation

RELATED ENTITIES

RELATED TOPICS