研究人员开发了一个名为S2(See Less, Specify More,少看多说)的新框架,以增强视觉-语言-动作(VLA)模型的泛化能力。S2通过保留高级指令并用更具体的语言重新标注轨迹来优化执行器的训练。它还强制执行视觉证据预算,训练模型根据任务充分的视觉信息而非无约束的上下文来行动。这种方法显著提高了机器人在实际任务中的成功率,在TX-G2和HSR机器人上将平均子任务成功率从54.2%提高到79.0%。 AI
影响 增强了VLA模型的泛化能力,有望带来更强大的机器人控制和AI代理。
排序理由 这是一篇详细介绍改进VLA模型新框架的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →