研究人员开发了一种新的计算机使用代理(CUA)强化学习框架,该框架利用自主视觉语言评估进行监督。通过使用视觉语言模型根据最终屏幕截图和指令判断任务完成情况,该方法解决了在开放式桌面环境中获取可扩展奖励信号的挑战。该框架将评估者的反馈建模为嘈杂的二元奖励通道,并使用经过噪声校正的奖励估计器进行近端策略优化,从而在各种模拟环境中成功率得到显著提高。 AI
影响 这项研究可以实现更强大的 AI 代理,这些代理能够自主学习在图形用户界面中执行复杂任务。
排序理由 该集群包含一篇详细介绍 AI 代理强化学习新方法的论文。
- arXiv
- Computer Use Agents
- macOSWorld
- OSWorld
- Proximal Policy Optimization
- reinforcement learning
- vision-language model
- Windows Agent Arena
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →