PulseAugur
实时 11:02:38
English(EN) DEFLECT: Temporal Counterfactual Preference Learning for Delay-Robust Asynchronous VLAs

DEFLECT框架提升机器人VLA策略延迟鲁棒性

研究人员开发了DEFLECT,一个旨在提高机器人异步视觉-语言-动作(VLA)策略鲁棒性的新型训练后框架。该方法通过将延迟引起的不匹配转化为反事实偏好监督,来解决推理过程中观测值陈旧的挑战。DEFLECT训练策略以偏好与执行时状态一致的动作,而无需人工标签、在线机器人试运行或额外的推理计算。在各种任务上的实验表明,DEFLECT显著增强了延迟鲁棒性,成功率提高了多达6.4个百分点。 AI

影响 通过提高VLA策略在延迟下的性能来增强机器人控制,可能支持更复杂的实际应用。

排序理由 这是一篇详细介绍在特定领域提高AI模型性能的新框架的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Yixiang Zhu, Yonghao Chen, Zijie Yang, Yusong Hu, Xinyu Chen ·

    DEFLECT: Temporal Counterfactual Preference Learning for Delay-Robust Asynchronous VLAs

    arXiv:2605.19294v2 Announce Type: replace-cross Abstract: Vision-Language-Action (VLA) policies increasingly rely on asynchronous inference to hide large-model latency behind ongoing robot motion. While this avoids the stop-and-go behavior of synchronous action-chunk execution, i…