English(EN) Motion-Focused Latent Action Enables Cross-Embodiment VLA Training from Human EgoVideos

新框架在无标签人类视频上训练视频语言动作模型

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-17 11:37

研究人员开发了一个新框架，使用无标签的以自我为中心的人类视频来训练视频语言动作（VLA）模型。该系统采用混合解耦VQ-VAE将运动动力学与背景分离，创建了一个跨具身动作代码本。这种预训练使视频语言模型（VLM）骨干能够学习动作意图，而意图感知解耦策略通过将动作意图与特定状态的视觉特征分离来进一步优化预测。该方法在需要最少下游适应的情况下，与在大量标注数据集上训练的最先进VLA模型相比，表现具有竞争力。 AI

影响这项研究可能通过利用丰富的无标签人类视频数据，实现更高效的VLA模型训练，从而可能减少对昂贵标注机器人数据集的需求。

排序理由该集群包含一篇详细介绍AI模型训练新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Jincheng Yu · 2026-06-17 11:37

面向运动的潜在动作实现跨具身VLA训练，源自人类自我视频

Training generalist Vision-Language-Action(VLA) models typically requires massive, diverse robotic datasets with high-fidelity action annotations. While egocentric human manipulation videos are abundant and capture significant environmental diversity, the absence of action labels…

报道来源 [1]

面向运动的潜在动作实现跨具身VLA训练，源自人类自我视频

相关实体

相关话题