English(EN) scBench-Long: Verifiable Benchmarking of Long-Horizon Single-Cell Biology

新基准 scBench-Long 测试 AI 从单细胞数据中得出科学结论的能力

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-26 04:00

研究人员推出了 scBench-Long，这是一个旨在评估 AI 代理从单细胞生物学数据中得出复杂科学结论的能力的新基准。该基准涵盖了癌症、发育和传染病等各种生物学背景下的 21 项评估，要求代理在没有规定方法的情况下整合元数据和辅助证据。目前的 AI 模型在这些长时程任务中表现不佳，表现最好的模型-工具组合在 1,068 条轨迹上的成功率仅为 25.4%。 AI

影响该基准有望推动能够进行更复杂科学推理和发现的 AI 代理在生物学领域的发展。

排序理由该项目描述了一个用于评估特定科学领域（单细胞生物学）AI 代理的新基准，属于研究范畴。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Ian Diks, Zhen Yang, Arjun Banerjee, Tim Proctor, Kenny Workman · 2026-06-26 04:00

scBench-Long：长视域单细胞生物学的可验证基准测试

arXiv:2606.26563v1 Announce Type: cross Abstract: Single-cell studies require analysts to convert raw measurements into specific biological claims through multi-step workflows and integration of metadata, assay context, and auxiliary evidence. Existing AI-biology benchmarks large…

报道来源 [1]

scBench-Long：长视域单细胞生物学的可验证基准测试

相关实体

相关话题