PulseAugur
实时 12:11:08
实体 LabOSBench

LabOSBench

PulseAugur coverage of LabOSBench — every cluster mentioning LabOSBench across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_93180 ·

    新基准LabOSBench测试AI代理在科学仪器控制方面的能力

    研究人员推出了LabOSBench,这是一个旨在评估计算机使用代理在科学仪器控制方面能力的新基准。该基准利用基于网络的模拟器来克服在物理仪器上测试代理的实际挑战,例如成本和安全风险。LabOSBench包含八个仪器模拟器中的96个子任务,涵盖了一系列科学工作流程。初步实验表明,虽然当前的代理可以处理结构化任务,但它们在反馈驱动的操作和长时程执行方面存在困难。