PulseAugur
实时 16:58:59

新的3D轨迹世界模型增强了可扩展的机器人学习

研究人员开发了$\mu_0$,一种新颖的机器人世界模型,它利用3D交互轨迹来预测显著物体和点的运动。这种方法绕过了对特定于具身行为的动作标签的需求,从而实现了更具可扩展性的机器人学习。该系统借助TraceExtract工具自动提取3D监督信息,并使用模块化轨迹专家预训练视觉语言骨干网络。实验表明,$\mu_0$的表现优于现有的轨迹预测模型和标记化VLM方法,确立了3D轨迹作为可转移的操纵任务表示。 AI

影响 确立了3D轨迹作为机器人跨具身操纵的可扩展且可转移的表示。

排序理由 发布了一篇详细介绍新AI模型和方法的学术论文。

在 Hugging Face Daily Papers 阅读 →

AI 生成摘要 · Google Gemini · 来自 3 个来源。 我们如何撰写摘要 →

新的3D轨迹世界模型增强了可扩展的机器人学习

报道来源 [3]

  1. arXiv cs.LG TIER_1 English(EN) · Seungjae Lee, Yoonkyo Jung, Jusuk Lee, Jonghun Shin, Amir Hossein Shahidzadeh, Yao-Chih Lee, H. Jin Kim, Jia-Bin Huang, Furong Huang ·

    $\mu_0$: A Scalable 3D Interaction-Trace World Model

    arXiv:2606.13769v1 Announce Type: cross Abstract: World models that capture how actions induce physical change enable scalable robot learning without reliance on embodiment-specific action labels. Pixel-space video models provide broad visual priors but expend model capacity on d…

  2. Hugging Face Daily Papers TIER_1 English(EN) ·

    μ_0: A Scalable 3D Interaction-Trace World Model

    A scalable world model called μ₀ uses 3D traces to predict smooth trajectories for key interaction points, enabling embodiment-agnostic robot learning without action labels.

  3. arXiv cs.CV TIER_1 English(EN) · Furong Huang ·

    $μ_0$: A Scalable 3D Interaction-Trace World Model

    World models that capture how actions induce physical change enable scalable robot learning without reliance on embodiment-specific action labels. Pixel-space video models provide broad visual priors but expend model capacity on dense appearance reconstruction, while direct actio…