PulseAugur
实时 07:16:10

WoVR 框架使用受控世界模型改进 VLA 模型强化学习

研究人员开发了 WoVR,一个新颖的框架,旨在通过使用世界模型作为模拟器来增强视觉-语言-动作 (VLA) 模型的强化学习。这种方法解决了通常阻碍策略优化的想象式 rollout 中出现的幻觉和错误累积的挑战。WoVR 通过动作条件视频世界模型提高了 rollout 的稳定性,通过关键帧初始化的 rollout 减少了有效错误深度,并通过世界模型-策略协同演进确保了策略-模拟器的一致性。实验表明,WoVR 促进了长时程想象式 rollout 的稳定性,并带来了有效的策略优化,在 LIBERO 基准测试中取得了强劲的性能,并在机器人平台上展示了持续的实际增益。 AI

影响 增强了 VLA 模型的强化学习,可能实现更鲁棒的机器人控制和复杂任务执行。

排序理由 该集群包含一篇详细介绍新 AI 模型训练框架的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

WoVR 框架使用受控世界模型改进 VLA 模型强化学习

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Zhennan Jiang, Shangqing Zhou, Yutong Jiang, Zefang Huang, Mingjie Wei, Yuhui Chen, Tianxing Zhou, Zhen Guo, Hao Lin, Quanlu Zhang, Yu Wang, Haoran Li, Chao Yu, Dongbin Zhao ·

    WoVR:世界模型作为可靠的模拟器,用于强化学习后训练的VLA策略

    arXiv:2602.13977v2 Announce Type: replace-cross Abstract: Reinforcement learning (RL) promises to unlock capabilities beyond imitation learning for Vision--Language--Action (VLA) models, but its requirement for massive real-world interaction prevents direct deployment on physical…