实体 AutoMedBench

AutoMedBench

PulseAugur coverage of AutoMedBench — every cluster mentioning AutoMedBench across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_65383 · Jun 2 · 04:00

新基准评估AI Agent在医学研究工作流中的表现

研究人员推出了AutoMedBench，这是一个旨在评估自主AI Agent在执行端到端医学研究任务方面能力的新基准。该基准将Agent的执行组织成一个五阶段工作流，包括规划、设置、验证、推理和提交，任务平均需要33个Agent回合。对数千次运行的分析显示，Agent在验证和提交阶段最挣扎，这表明需要改进AI研究工作流中的可靠性验证。