一项名为Agents' Last Exam (ALE) 的新基准测试已被推出,用于评估AI代理在现实世界专业领域中的长期、具有经济价值的任务。ALE由250多名行业专家开发,涵盖非实体行业,包含13个行业集群中的1000多个任务。目前的结果表明,即使是先进的AI代理在这些复杂任务上也表现不佳,平均完全通过率仅为2.6%。该基准测试旨在成为一个动态工具,不断扩展其任务池,以弥合AI在基准测试中的表现与其实际经济影响之间的差距。 AI
影响 旨在更好地衡量AI的实际经济价值,并指导其发展方向以实现实际应用。
排序理由 这是一篇介绍用于评估AI代理的新基准测试的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →