研究人员开发了 OpAgent,这是一种新颖的网页导航代理,它利用在线强化学习来克服静态数据集的局限性。该代理采用了一种分层多任务微调方法,结合了视觉语言模型和一个具有混合奖励机制的专业 RL 管道。OpAgent 在 WebArena 基准测试中表现出显著的性能提升,成功率达到 71.6%,超过了此前的最先进水平。 AI
影响 OpAgent 在 WebArena 上的 SOTA 性能可能会加速对更强大、更适应性强的网络代理的研究,以应对复杂的在线任务。
排序理由 这是一篇详细介绍新代理架构和基准性能的研究论文。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →