研究人员推出了SaaS-Bench,这是一个新的基准,旨在评估计算机使用代理(CUAs)在软件即服务(SaaS)环境中的现实专业工作流程。该基准包含六个专业领域中23个SaaS系统的106个任务,需要长周期执行,并涵盖纯文本和多模态场景。初步实验显示,当前的LLM代理表现不佳,最好的模型端到端完成的任务不到4%,凸显了在规划、状态跟踪和错误恢复方面存在重大局限性。 AI
影响 强调了当前AI代理能力与现实专业任务需求之间的差距,表明在规划和上下文维护方面需要取得进展。
排序理由 该集群描述了一篇介绍AI代理基准的新学术论文的发布。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →