PulseAugur
实时 14:01:26
实体 AutoMedBench

AutoMedBench

PulseAugur coverage of AutoMedBench — every cluster mentioning AutoMedBench across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_65383 ·

    新基准评估AI Agent在医学研究工作流中的表现

    研究人员推出了AutoMedBench,这是一个旨在评估自主AI Agent在执行端到端医学研究任务方面能力的新基准。该基准将Agent的执行组织成一个五阶段工作流,包括规划、设置、验证、推理和提交,任务平均需要33个Agent回合。对数千次运行的分析显示,Agent在验证和提交阶段最挣扎,这表明需要改进AI研究工作流中的可靠性验证。