Being-H0.7 模型在无视觉回放的情况下将未来推理整合到机器人控制中

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-04 04:00

研究人员推出 Being-H0.7，这是一种新颖的潜在世界-动作模型，旨在通过整合未来预测来增强机器人控制，而无需生成显式的未来视频帧。该模型利用可学习的潜在查询作为推理接口，采用双分支方法进行训练，将当前上下文嵌入与来自未来观察的嵌入对齐。通过专注于潜在空间对齐，Being-H0.7 使策略能够有效地推理未来状态和动作，在各种模拟和现实世界的机器人任务中取得了最先进的性能。 AI

影响引入了一种更有效的方法供机器人预测未来状态和动作，有可能提高现实世界任务的性能。

排序理由这是一篇详细介绍机器人控制新模型的学术论文。

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Hao Luo, Wanpeng Zhang, Yicheng Feng, Sipeng Zheng, Haiweng Xu, Chaoyi Xu, Ziheng Xi, Yuhui Fu, Zongqing Lu · 2026-05-04 04:00

Being-H0.7：来自以自我为中心的视频的潜在世界-动作模型

arXiv:2605.00078v1 Announce Type: cross Abstract: Visual-Language-Action models (VLAs) have advanced generalist robot control by mapping multimodal observations and language instructions directly to actions, but sparse action supervision often encourages shortcut mappings rather …

报道来源 [1]

Being-H0.7：来自以自我为中心的视频的潜在世界-动作模型

相关实体

相关话题