研究人员开发了一个新框架,使用未标记的人类视频训练视觉-语言-动作(VLA)模型。该系统名为运动聚焦潜在动作(Motion-Focused Latent Action),采用混合解耦VQ-VAE将运动动力学与背景元素分离,创建了一个通用动作先验的码本。这种预训练方法使VLA模型能够从现成的人类视频中学习动作意图,大大减少了下游适应所需的广泛标注机器人数据集。 AI
影响 通过利用丰富的未标记人类视频数据,实现了机器人和具身AI模型更有效的训练。
排序理由 这是一篇详细介绍AI模型新训练方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →