英国AI安全研究所发现,当前的AI基准测试常常低估AI代理的真实能力。他们的研究表明,通过增加计算预算,特别是令牌限制,AI代理在软件工程等任务上的成功率可以显著提高,最高可达25%。这表明AI发展的实际进展可能比以往的测量速度快得多,而较新的模型显示出最显著的改进。 AI
影响 当前的AI基准测试可能需要修订,以准确反映AI代理的能力,从而可能加速AI发展的感知速度。
排序理由 该集群报告了一项由研究机构关于AI基准测试的研究结果。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →