English(EN) LabOSBench: Benchmarking Computer Use Agents for Scientific Instrument Control

新基准LabOSBench测试AI代理在科学仪器控制方面的能力

作者 PulseAugur 编辑部 · [2 个来源] · 2026-06-15 14:42

研究人员推出了LabOSBench，这是一个旨在评估计算机使用代理在科学仪器控制方面能力的新基准。该基准利用基于网络的模拟器来克服在物理仪器上测试代理的实际挑战，例如成本和安全风险。LabOSBench包含八个仪器模拟器中的96个子任务，涵盖了一系列科学工作流程。初步实验表明，虽然当前的代理可以处理结构化任务，但它们在反馈驱动的操作和长时程执行方面存在困难。 AI

影响该基准可以加速能够执行复杂、现实世界科学任务的AI代理的开发。

排序理由该集群包含一篇详细介绍AI代理新基准的研究论文。

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.AI TIER_1 English(EN) · Anqi Zou, Han Deng, Chengyu Zhang, Junquan Hu, Yu Wang, Yuxiang Xing, Aokai Zhang, Hanling Zhang, Zhaoyang Liu, Ben Fei, Zhihui Wang, Wanli Ouyang · 2026-06-16 04:00

LabOSBench: Benchmarking Computer Use Agents for Scientific Instrument Control

arXiv:2606.16802v1 Announce Type: new Abstract: Current computer-use benchmarks primarily focus on software operation tasks in virtualized systems, whereas scientific instrumentation scenarios require coordinated control over complex interfaces, and feedback-driven parameter adju…
arXiv cs.AI TIER_1 English(EN) · Wanli Ouyang · 2026-06-15 14:42

LabOSBench: Benchmarking Computer Use Agents for Scientific Instrument Control

Current computer-use benchmarks primarily focus on software operation tasks in virtualized systems, whereas scientific instrumentation scenarios require coordinated control over complex interfaces, and feedback-driven parameter adjustment. However, directly evaluating agents on p…

报道来源 [2]

LabOSBench: Benchmarking Computer Use Agents for Scientific Instrument Control

LabOSBench: Benchmarking Computer Use Agents for Scientific Instrument Control

相关实体

相关话题