研究人员开发了DEFLECT,一个旨在提高机器人异步视觉-语言-动作(VLA)策略鲁棒性的新型训练后框架。该方法通过将延迟引起的不匹配转化为反事实偏好监督,来解决推理过程中观测值陈旧的挑战。DEFLECT训练策略以偏好与执行时状态一致的动作,而无需人工标签、在线机器人试运行或额外的推理计算。在各种任务上的实验表明,DEFLECT显著增强了延迟鲁棒性,成功率提高了多达6.4个百分点。 AI
影响 通过提高VLA策略在延迟下的性能来增强机器人控制,可能支持更复杂的实际应用。
排序理由 这是一篇详细介绍在特定领域提高AI模型性能的新框架的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →