PulseAugur
实时 13:15:47

新基准显示 AI 代理仅能完成 2.6% 的真实世界任务

一项名为 Agents' Last Exam (ALE) 的新基准被引入,用于评估 AI 代理在与专业行业相关的复杂真实世界任务上的表现。ALE 由 250 多名行业专家开发,涵盖 13 个行业集群中的 1000 多个任务,这些任务源自实际专家项目,并利用了美国联邦职业分类法。初步结果表明,当前 AI 代理在最具挑战性的层级上仅达到 2.6% 的通过率,这凸显了 AI 能力与实际工作场所自动化之间存在的巨大差距。 AI

影响 凸显了 AI 代理在基准测试表现与真实世界经济价值之间的差距,暗示广泛的 AI 工作场所自动化需要更长的时间。

排序理由 该集群描述了一篇介绍 AI 代理新基准的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 Hugging Face Daily Papers 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. Hugging Face Daily Papers TIER_1 (CA) ·

    Agents' Last Exam

    Agents' Last Exam (ALE) is a benchmark for evaluating AI agents on long-term, economically valuable real-world tasks across 13 industry clusters with 1K+ tasks, revealing significant gaps between benchmark performance and practical deployment.