实体 AARRI-Bench

AARRI-Bench

PulseAugur coverage of AARRI-Bench — every cluster mentioning AARRI-Bench across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

RESEARCH · CL_77154 · Jun 5 · 17:13

新基准显示 AI 代理在研究细节方面存在困难

引入了一个名为 AARR 的新基准系列，用于评估高级 AI 代理的研究能力。首个迭代 AARRI-Bench 测试了代理在需要专业性、彻底性和细微推理方面的任务，这些方面通常是当前系统所忽略的。实验表明，即使是表现最好的代理 Mini-SWE-Agent（使用 Claude Opus 4.7），成功率也仅为 68.3%，这凸显了 AI 需要更好地模仿人类研究行为。