PulseAugur
实时 10:25:31
实体 SOC 2018

SOC 2018

PulseAugur coverage of SOC 2018 — every cluster mentioning SOC 2018 across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_72654 ·

    新基准测试AI代理在现实经济任务中的表现

    一项名为Agents' Last Exam (ALE) 的新基准测试已被推出,用于评估AI代理在现实世界专业领域中的长期、具有经济价值的任务。ALE由250多名行业专家开发,涵盖非实体行业,包含13个行业集群中的1000多个任务。目前的结果表明,即使是先进的AI代理在这些复杂任务上也表现不佳,平均完全通过率仅为2.6%。该基准测试旨在成为一个动态工具,不断扩展其任务池,以弥合AI在基准测试中的表现与其实际经济影响之间的差距。