中文(ZH) Claude 通过率不到4%，SaaS-Bench撕碎了Computer-Use的「全自动办公」幻想

AI 代理在现实任务中失败，新的 SaaS-Bench 揭示

作者 PulseAugur 编辑部 · [1 source] · 2026-05-25 03:29

一项名为 SaaS-Bench 的新基准测试显示，当前的 AI 代理在现实世界的长周期任务中面临巨大挑战，像 Claude Opus 4.7 这样的顶级模型在完全完成任务方面的成功率不到 4%。该基准测试使用实际的 SaaS 系统和数据，揭示了四种主要的失败模式：在长期任务中无法维持性能、单个错误导致级联错误、缺乏自我检查机制以及多次运行性能不一致。这些发现表明，当前的 AI 代理范式不足以实现真正的自动化，并且可能需要为 AI 代理重新设计软件界面，而不是期望它们操作以人为中心的用户界面。 AI

影响揭示了当前 AI 代理在现实世界自动化方面的显著局限性，表明需要新的范式和重新设计软件以实现 AI 交互。

排序理由该集群报告了一项新基准测试及其关于 AI 代理性能的发现。[lever_c_demoted from research: ic=1 ai=1.0]

在量子位 (QbitAI) 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

量子位 (QbitAI) TIER_1 中文(ZH) · 量子位的朋友们 · 2026-05-25 03:29

Claude's Pass Rate Under 4%, SaaS-Bench Tears Apart Computer-Use's 'Fully Automated Office' Fantasy

UniPat AI 发布 SaaS-Bench 评测，Claude 等主流大模型在真实办公任务中完全通过率最高仅 3.8%，AI 全自动办公远未落地。

报道来源 [1]

Claude's Pass Rate Under 4%, SaaS-Bench Tears Apart Computer-Use's 'Fully Automated Office' Fantasy

相关实体

相关话题