English(EN) DEFLECT: Temporal Counterfactual Preference Learning for Delay-Robust Asynchronous VLAs

DEFLECT框架提升机器人VLA策略延迟鲁棒性

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-04 04:00

研究人员开发了DEFLECT，一个旨在提高机器人异步视觉-语言-动作（VLA）策略鲁棒性的新型训练后框架。该方法通过将延迟引起的不匹配转化为反事实偏好监督，来解决推理过程中观测值陈旧的挑战。DEFLECT训练策略以偏好与执行时状态一致的动作，而无需人工标签、在线机器人试运行或额外的推理计算。在各种任务上的实验表明，DEFLECT显著增强了延迟鲁棒性，成功率提高了多达6.4个百分点。 AI

影响通过提高VLA策略在延迟下的性能来增强机器人控制，可能支持更复杂的实际应用。

排序理由这是一篇详细介绍在特定领域提高AI模型性能的新框架的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Yixiang Zhu, Yonghao Chen, Zijie Yang, Yusong Hu, Xinyu Chen · 2026-06-04 04:00

DEFLECT：用于延迟鲁棒异步VLA的时间反事实偏好学习

arXiv:2605.19294v2 Announce Type: replace-cross Abstract: Vision-Language-Action (VLA) policies increasingly rely on asynchronous inference to hide large-model latency behind ongoing robot motion. While this avoids the stop-and-go behavior of synchronous action-chunk execution, i…

报道来源 [1]

DEFLECT：用于延迟鲁棒异步VLA的时间反事实偏好学习

相关实体

相关话题