研究人员推出了 scBench-Long,这是一个旨在评估 AI 代理从单细胞生物学数据中得出复杂科学结论的能力的新基准。该基准涵盖了癌症、发育和传染病等各种生物学背景下的 21 项评估,要求代理在没有规定方法的情况下整合元数据和辅助证据。目前的 AI 模型在这些长时程任务中表现不佳,表现最好的模型-工具组合在 1,068 条轨迹上的成功率仅为 25.4%。 AI
影响 该基准有望推动能够进行更复杂科学推理和发现的 AI 代理在生物学领域的发展。
排序理由 该项目描述了一个用于评估特定科学领域(单细胞生物学)AI 代理的新基准,属于研究范畴。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →