PulseAugur
实时 19:57:59
中文(ZH) Claude 通过率不到4%,SaaS-Bench撕碎了Computer-Use的「全自动办公」幻想

AI 代理在现实任务中失败,新的 SaaS-Bench 揭示

一项名为 SaaS-Bench 的新基准测试显示,当前的 AI 代理在现实世界的长周期任务中面临巨大挑战,像 Claude Opus 4.7 这样的顶级模型在完全完成任务方面的成功率不到 4%。该基准测试使用实际的 SaaS 系统和数据,揭示了四种主要的失败模式:在长期任务中无法维持性能、单个错误导致级联错误、缺乏自我检查机制以及多次运行性能不一致。这些发现表明,当前的 AI 代理范式不足以实现真正的自动化,并且可能需要为 AI 代理重新设计软件界面,而不是期望它们操作以人为中心的用户界面。 AI

影响 揭示了当前 AI 代理在现实世界自动化方面的显著局限性,表明需要新的范式和重新设计软件以实现 AI 交互。

排序理由 该集群报告了一项新基准测试及其关于 AI 代理性能的发现。[lever_c_demoted from research: ic=1 ai=1.0]

在 量子位 (QbitAI) 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. 量子位 (QbitAI) TIER_1 中文(ZH) · 量子位的朋友们 ·

    Claude's Pass Rate Under 4%, SaaS-Bench Tears Apart Computer-Use's 'Fully Automated Office' Fantasy

    UniPat AI 发布 SaaS-Bench 评测,Claude 等主流大模型在真实办公任务中完全通过率最高仅 3.8%,AI 全自动办公远未落地。