English(EN) GROW: Aligning GRPO with State-Action Modeling for Open-World VLM Agents

新的 GROW 框架通过适配的 GRPO 增强 VLM 代理

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-22 04:00

研究人员推出了一种新颖的强化学习框架 GROW，旨在增强视觉语言模型 (VLM) 代理在开放世界任务中的能力。与以往严重依赖监督微调的方法不同，GROW 通过将轨迹分解为状态-动作样本来适配 Group Relative Policy Optimization (GRPO) 算法。这种方法缓解了标准 GRPO 中固有的长上下文和噪声问题，实现了更有效的多轮学习。在超过 800 个 Minecraft 任务上的实验表明，GROW 达到了最先进的性能，展示了其在推进 VLM 代理方面的潜力。 AI

影响通过提高强化学习效率，增强了 VLM 代理在开放世界任务中的性能。

排序理由发布了一篇详细介绍新 AI 框架及其实验结果的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Xiongbin Wu, Zhihao Luo, Shanzhe Lei, Lechao Zhang, Xuhong Wang, Jie Yang, Zhonglong Zheng, Yuanjie Zheng, Xin Tan, Wei Liu · 2026-05-22 04:00

GROW：将 GRPO 与状态-动作建模对齐，用于开放世界 VLM 代理

arXiv:2605.20246v2 Announce Type: cross Abstract: Recently, vision-language model (VLM) agents have shown promising progress in open-world tasks, where successful task completion often requires multiple turns of visual perception and action execution. However, existing methods st…

报道来源 [1]

GROW：将 GRPO 与状态-动作建模对齐，用于开放世界 VLM 代理

相关实体

相关话题