引入了一个名为 AARR 的新基准系列,用于评估高级 AI 代理的研究能力。首个迭代 AARRI-Bench 测试了代理在需要专业性、彻底性和细微推理方面的任务,这些方面通常是当前系统所忽略的。实验表明,即使是表现最好的代理 Mini-SWE-Agent(使用 Claude Opus 4.7),成功率也仅为 68.3%,这凸显了 AI 需要更好地模仿人类研究行为。 AI
影响 强调了当前 AI 代理在进行细微科学推理方面的局限性,表明除了复杂的脚手架之外,还需要进一步开发。
排序理由 该集群包含一篇介绍用于评估 AI 代理的新型基准的学术论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →