PulseAugur
实时 07:23:26
English(EN) Unified Video-Action Joint Denoising for Dexterous Action and Data Generation

Donk模型统一了灵巧机器人的视频-动作去噪

研究人员推出了一种新颖的统一视频-动作去噪模型Donk,专为灵巧机器人手设计。该模型通过对交互视频和手部轨迹的联合分布进行建模来运行,使其能够从各种条件下生成未来的视频和动作策略。值得注意的是,Donk还可以作为数据引擎,仅凭文本提示生成配对的视频-动作回放,从而增强其在动作生成和数据合成中的效用。 AI

影响 引入了一种生成灵巧机器人动作和合成视频数据的统一方法,有望加速机器人学的研究和开发。

排序理由 这是一篇描述新模型及其能力的学术论文。

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

报道来源 [2]

  1. arXiv cs.CV TIER_1 English(EN) · Dingrui Wang, YuAn Wang, Jinkun Liu, Yue Zhang, Mattia Piccinini, Yu Sun, Johannes Betz ·

    Unified Video-Action Joint Denoising for Dexterous Action and Data Generation

    arXiv:2606.03868v1 Announce Type: new Abstract: Recent world action models leverage video foundation models by aligning broad visual-dynamics priors with executable robot actions. We revisit this alignment from a distributional perspective. Existing formulations typically narrow …

  2. arXiv cs.CV TIER_1 English(EN) · Johannes Betz ·

    Unified Video-Action Joint Denoising for Dexterous Action and Data Generation

    Recent world action models leverage video foundation models by aligning broad visual-dynamics priors with executable robot actions. We revisit this alignment from a distributional perspective. Existing formulations typically narrow the aligned prior into an observation-conditione…