研究人员开发了一种名为APT(动作专家预训练)的新方法,以提高视觉-语言-动作(VLA)模型的泛化能力。这些模型结合了视觉-语言理解和动作执行,但常常难以处理与其训练数据不同的指令。APT通过首先在视觉-动作对上预训练动作专家,建立一个稳定的基础,然后再整合语言条件来实现这一目标。这种两阶段的方法有助于防止训练数据中的语言不平衡破坏模型的视觉运动技能,并增强其遵循新指令的能力。 AI
影响 这项研究可能带来更强大、更具适应性的AI代理,能够理解并执行更广泛的现实世界指令。
排序理由 该集群描述了一篇详细介绍新AI模型性能改进方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]
在 Hugging Face Daily Papers 阅读 →
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →