English(EN) SaaS-Bench: Can Computer-Use Agents Leverage Real-World SaaS to Solve Professional Workflows?

新基准显示AI代理难以处理真实的SaaS任务

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-15 09:35

研究人员推出了SaaS-Bench，这是一个新的基准，旨在评估计算机使用代理（CUAs）在软件即服务（SaaS）环境中的现实专业工作流程。该基准包含六个专业领域中23个SaaS系统的106个任务，需要长周期执行，并涵盖纯文本和多模态场景。初步实验显示，当前的LLM代理表现不佳，最好的模型端到端完成的任务不到4%，凸显了在规划、状态跟踪和错误恢复方面存在重大局限性。 AI

影响强调了当前AI代理能力与现实专业任务需求之间的差距，表明在规划和上下文维护方面需要取得进展。

排序理由该集群描述了一篇介绍AI代理基准的新学术论文的发布。

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Baobao Chang · 2026-05-15 09:35

SaaS-Bench: Can Computer-Use Agents Leverage Real-World SaaS to Solve Professional Workflows?

Computer-Using Agents (CUAs) are rapidly extending large language models (LLMs) beyond text-based reasoning toward action execution in more complex environments, such as web browsers and graphical user interfaces (GUIs). However, existing web and GUI agent benchmarks often rely o…

报道来源 [1]

SaaS-Bench: Can Computer-Use Agents Leverage Real-World SaaS to Solve Professional Workflows?

相关实体

相关话题