研究人员推出了LabOSBench,这是一个旨在评估计算机使用代理在科学仪器控制方面能力的新基准。该基准利用基于网络的模拟器来克服在物理仪器上测试代理的实际挑战,例如成本和安全风险。LabOSBench包含八个仪器模拟器中的96个子任务,涵盖了一系列科学工作流程。初步实验表明,虽然当前的代理可以处理结构化任务,但它们在反馈驱动的操作和长时程执行方面存在困难。 AI
影响 该基准可以加速能够执行复杂、现实世界科学任务的AI代理的开发。
排序理由 该集群包含一篇详细介绍AI代理新基准的研究论文。
- alphaXiv
- arXiv
- CatalyzeX
- Connected Papers
- CORE Recommender
- DagsHub
- Gotit.pub
- Hugging Face
- Influence Flower
- LabOSBench
- Litmaps
- ScienceCast
- scite Smart Citations
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →