新基准显示 AI 代理仅能完成 2.6% 的真实世界任务

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-03 00:00

一项名为 Agents' Last Exam (ALE) 的新基准被引入，用于评估 AI 代理在与专业行业相关的复杂真实世界任务上的表现。ALE 由 250 多名行业专家开发，涵盖 13 个行业集群中的 1000 多个任务，这些任务源自实际专家项目，并利用了美国联邦职业分类法。初步结果表明，当前 AI 代理在最具挑战性的层级上仅达到 2.6% 的通过率，这凸显了 AI 能力与实际工作场所自动化之间存在的巨大差距。 AI

影响凸显了 AI 代理在基准测试表现与真实世界经济价值之间的差距，暗示广泛的 AI 工作场所自动化需要更长的时间。

排序理由该集群描述了一篇介绍 AI 代理新基准的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 Hugging Face Daily Papers 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

Hugging Face Daily Papers TIER_1 (CA) · 2026-06-03 00:00

Agents' Last Exam

Agents' Last Exam (ALE) is a benchmark for evaluating AI agents on long-term, economically valuable real-world tasks across 13 industry clusters with 1K+ tasks, revealing significant gaps between benchmark performance and practical deployment.

报道来源 [1]

Agents' Last Exam

相关实体

相关话题