PulseAugur
实时 01:18:17

Being-H0.7 模型在无视觉回放的情况下将未来推理整合到机器人控制中

研究人员推出 Being-H0.7,这是一种新颖的潜在世界-动作模型,旨在通过整合未来预测来增强机器人控制,而无需生成显式的未来视频帧。该模型利用可学习的潜在查询作为推理接口,采用双分支方法进行训练,将当前上下文嵌入与来自未来观察的嵌入对齐。通过专注于潜在空间对齐,Being-H0.7 使策略能够有效地推理未来状态和动作,在各种模拟和现实世界的机器人任务中取得了最先进的性能。 AI

影响 引入了一种更有效的方法供机器人预测未来状态和动作,有可能提高现实世界任务的性能。

排序理由 这是一篇详细介绍机器人控制新模型的学术论文。

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

Being-H0.7 模型在无视觉回放的情况下将未来推理整合到机器人控制中

报道来源 [1]

  1. arXiv cs.CV TIER_1 English(EN) · Hao Luo, Wanpeng Zhang, Yicheng Feng, Sipeng Zheng, Haiweng Xu, Chaoyi Xu, Ziheng Xi, Yuhui Fu, Zongqing Lu ·

    Being-H0.7:来自以自我为中心的视频的潜在世界-动作模型

    arXiv:2605.00078v1 Announce Type: cross Abstract: Visual-Language-Action models (VLAs) have advanced generalist robot control by mapping multimodal observations and language instructions directly to actions, but sparse action supervision often encourages shortcut mappings rather …