PulseAugur
实时 16:05:26
实体 ARC-Bench

ARC-Bench

PulseAugur coverage of ARC-Bench — every cluster mentioning ARC-Bench across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_40766 ·

    AutoResearchClaw系统增强自主科学发现

    研究人员开发了AutoResearchClaw,这是一个新颖的多代理系统,旨在通过迭代过程和人机协作来增强自主科学发现。该系统包含代理之间的结构化辩论、从失败中学习的自我修复执行引擎以及可验证的结果报告,以防止不准确。在ARC-Bench基准测试中,AutoResearchClaw比现有系统提高了54.7%,突显了在关键决策点进行有针对性的人工干预的有效性。