PulseAugur
实时 14:27:39
实体 AARRI-Bench

AARRI-Bench

PulseAugur coverage of AARRI-Bench — every cluster mentioning AARRI-Bench across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_77154 ·

    新基准显示 AI 代理在研究细节方面存在困难

    引入了一个名为 AARR 的新基准系列,用于评估高级 AI 代理的研究能力。首个迭代 AARRI-Bench 测试了代理在需要专业性、彻底性和细微推理方面的任务,这些方面通常是当前系统所忽略的。实验表明,即使是表现最好的代理 Mini-SWE-Agent(使用 Claude Opus 4.7),成功率也仅为 68.3%,这凸显了 AI 需要更好地模仿人类研究行为。