WoVR 框架使用受控世界模型改进 VLA 模型强化学习

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-30 04:00

研究人员开发了 WoVR，一个新颖的框架，旨在通过使用世界模型作为模拟器来增强视觉-语言-动作 (VLA) 模型的强化学习。这种方法解决了通常阻碍策略优化的想象式 rollout 中出现的幻觉和错误累积的挑战。WoVR 通过动作条件视频世界模型提高了 rollout 的稳定性，通过关键帧初始化的 rollout 减少了有效错误深度，并通过世界模型-策略协同演进确保了策略-模拟器的一致性。实验表明，WoVR 促进了长时程想象式 rollout 的稳定性，并带来了有效的策略优化，在 LIBERO 基准测试中取得了强劲的性能，并在机器人平台上展示了持续的实际增益。 AI

影响增强了 VLA 模型的强化学习，可能实现更鲁棒的机器人控制和复杂任务执行。

排序理由该集群包含一篇详细介绍新 AI 模型训练框架的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Zhennan Jiang, Shangqing Zhou, Yutong Jiang, Zefang Huang, Mingjie Wei, Yuhui Chen, Tianxing Zhou, Zhen Guo, Hao Lin, Quanlu Zhang, Yu Wang, Haoran Li, Chao Yu, Dongbin Zhao · 2026-06-30 04:00

WoVR：世界模型作为可靠的模拟器，用于强化学习后训练的VLA策略

arXiv:2602.13977v2 Announce Type: replace-cross Abstract: Reinforcement learning (RL) promises to unlock capabilities beyond imitation learning for Vision--Language--Action (VLA) models, but its requirement for massive real-world interaction prevents direct deployment on physical…

报道来源 [1]

WoVR：世界模型作为可靠的模拟器，用于强化学习后训练的VLA策略

相关实体

相关话题