研究人员开发了一个新框架,使用无标签的以自我为中心的人类视频来训练视频语言动作(VLA)模型。该系统采用混合解耦VQ-VAE将运动动力学与背景分离,创建了一个跨具身动作代码本。这种预训练使视频语言模型(VLM)骨干能够学习动作意图,而意图感知解耦策略通过将动作意图与特定状态的视觉特征分离来进一步优化预测。该方法在需要最少下游适应的情况下,与在大量标注数据集上训练的最先进VLA模型相比,表现具有竞争力。 AI
影响 这项研究可能通过利用丰富的无标签人类视频数据,实现更高效的VLA模型训练,从而可能减少对昂贵标注机器人数据集的需求。
排序理由 该集群包含一篇详细介绍AI模型训练新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →