PulseAugur
实时 22:15:11
English(EN) GROW: Aligning GRPO with State-Action Modeling for Open-World VLM Agents

新的 GROW 框架通过适配的 GRPO 增强 VLM 代理

研究人员推出了一种新颖的强化学习框架 GROW,旨在增强视觉语言模型 (VLM) 代理在开放世界任务中的能力。与以往严重依赖监督微调的方法不同,GROW 通过将轨迹分解为状态-动作样本来适配 Group Relative Policy Optimization (GRPO) 算法。这种方法缓解了标准 GRPO 中固有的长上下文和噪声问题,实现了更有效的多轮学习。在超过 800 个 Minecraft 任务上的实验表明,GROW 达到了最先进的性能,展示了其在推进 VLM 代理方面的潜力。 AI

影响 通过提高强化学习效率,增强了 VLM 代理在开放世界任务中的性能。

排序理由 发布了一篇详细介绍新 AI 框架及其实验结果的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Xiongbin Wu, Zhihao Luo, Shanzhe Lei, Lechao Zhang, Xuhong Wang, Jie Yang, Zhonglong Zheng, Yuanjie Zheng, Xin Tan, Wei Liu ·

    GROW: Aligning GRPO with State-Action Modeling for Open-World VLM Agents

    arXiv:2605.20246v2 Announce Type: cross Abstract: Recently, vision-language model (VLM) agents have shown promising progress in open-world tasks, where successful task completion often requires multiple turns of visual perception and action execution. However, existing methods st…