一篇新的arXiv论文介绍了Parallel WebBench,这是一个旨在更严格地评估Web代理的基准,通过识别最终答案正确性之外的故障。研究表明,即使代理检索到相关证据,仍然存在搜索循环、过早终止和合成崩溃等持续性问题。虽然使用GRPO和合成数据进行训练提高了完成率和部分正确性,但在确保最终答案完全正确并基于证据方面仍存在差距。 AI
影响 强调了Web代理可靠性和评估方法改进的关键领域。
排序理由 研究论文发布在arXiv上,详细介绍了一个新的基准和对Web代理故障的分析。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →