研究人员开发了一个新的基准和数据合成框架,以提高GUI代理的错误恢复能力。该基准GUI-RobustEval包含1200多个测试用例,用于系统地衡量代理从自身错误中恢复的程度。此外,一个名为RoTS的框架生成了80万个数据点,用于训练代理处理各种错误模式及其相应的恢复步骤。使用这些数据微调的模型,如RoTS-32B,已显示出显著的性能提升,并在OSWorld等基准测试中取得了最先进的成果。 AI
影响 通过提高AI代理从自身引起错误中恢复的能力,增强了其可靠性,可能加速其在现实世界中的部署。
排序理由 该集群包含一篇研究论文,详细介绍了用于AI代理的新基准和数据合成框架。
在 Hugging Face Daily Papers 阅读 →
- arXiv
- GUI agents
- GUI-RobustEval
- Hugging Face
- OSWorld
- Robustness-driven Trajectory Synthesis
- RoTS
- RoTS-32B
- RoTS-7B
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →