研究人员开发了一种名为 IntentScore 的新奖励模型,以提高自动化桌面任务的计算机使用代理(CUA)的可靠性。CUA 经常犯不可逆的错误,因为它们缺乏评估动作质量的机制。IntentScore 通过学习根据候选动作的相关性和正确性对其进行评分来解决这个问题,在成对判别中达到了 97.5% 的准确率。当部署在 OSWorld 环境中时,IntentScore 将任务成功率提高了 6.9 个百分点,证明了其在未见场景中的有效性。 AI
影响 提高了 AI 代理执行桌面任务的可靠性和成功率,减少了代价高昂的错误。
排序理由 该集群包含一篇详细介绍 AI 代理动作评估新方法的学术论文。 [lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 3 个来源。 我们如何撰写摘要 →