新型WAM4D模型通过4D空间感知增强机器人操控能力

作者 PulseAugur 编辑部 · [2 个来源] · 2026-06-12 02:49

研究人员开发了WAM4D，一种新颖的4D世界动作模型，旨在通过整合3D空间约束来改进机器人操控。与之前在2D或潜在空间中运行的模型不同，WAM4D利用轻量级的空间寄存器令牌将几何先验知识转移到因果Transformer中。这种方法通过在训练后移除寄存器分支来实现高效的动作推理，而因果混合注意力则防止了非因果捷径。在RoboTwin 2.0数据集和真实世界任务上的实验证明了WAM4D在增强空间一致性和动作预测效率方面的能力。 AI

影响 WAM4D的高效推理和改进的空间一致性有望加速开发更强大的机器人系统，以应对复杂的操控任务。

排序理由该集群包含一篇详细介绍新模型及其实验结果的学术论文。

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.CV TIER_1 English(EN) · Ying Li, Xiaobao Wei, Jiajun Cao, Hao Wang, Xiaowei Chi, Chengyu Bai, Qianpu Sun, Jiajun Li, Xiaojie Zhang, Jian Tang, Sirui Han, Shanghang Zhang · 2026-06-15 04:00

WAM4D: Fast 4D World Action Model via Spatial Register Tokens

arXiv:2606.14048v1 Announce Type: new Abstract: World action models (WAMs) have recently shown promise in jointly modeling future observations and executable robot actions. However, most existing WAMs still operate in 2D video or latent spaces, where visually plausible rollouts m…
arXiv cs.CV TIER_1 English(EN) · Shanghang Zhang · 2026-06-12 02:49

WAM4D: Fast 4D World Action Model via Spatial Register Tokens

World action models (WAMs) have recently shown promise in jointly modeling future observations and executable robot actions. However, most existing WAMs still operate in 2D video or latent spaces, where visually plausible rollouts miss the 3D spatial constraints and occluded cont…

报道来源 [2]

WAM4D: Fast 4D World Action Model via Spatial Register Tokens

WAM4D: Fast 4D World Action Model via Spatial Register Tokens

相关实体

相关话题