研究人员推出了一种新颖的强化学习框架 GROW,旨在增强视觉语言模型 (VLM) 代理在开放世界任务中的能力。与以往严重依赖监督微调的方法不同,GROW 通过将轨迹分解为状态-动作样本来适配 Group Relative Policy Optimization (GRPO) 算法。这种方法缓解了标准 GRPO 中固有的长上下文和噪声问题,实现了更有效的多轮学习。在超过 800 个 Minecraft 任务上的实验表明,GROW 达到了最先进的性能,展示了其在推进 VLM 代理方面的潜力。 AI
影响 通过提高强化学习效率,增强了 VLM 代理在开放世界任务中的性能。
排序理由 发布了一篇详细介绍新 AI 框架及其实验结果的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →