PulseAugur
实时 03:14:51
English(EN) scBench-Long: Verifiable Benchmarking of Long-Horizon Single-Cell Biology

新基准 scBench-Long 测试 AI 从单细胞数据中得出科学结论的能力

研究人员推出了 scBench-Long,这是一个旨在评估 AI 代理从单细胞生物学数据中得出复杂科学结论的能力的新基准。该基准涵盖了癌症、发育和传染病等各种生物学背景下的 21 项评估,要求代理在没有规定方法的情况下整合元数据和辅助证据。目前的 AI 模型在这些长时程任务中表现不佳,表现最好的模型-工具组合在 1,068 条轨迹上的成功率仅为 25.4%。 AI

影响 该基准有望推动能够进行更复杂科学推理和发现的 AI 代理在生物学领域的发展。

排序理由 该项目描述了一个用于评估特定科学领域(单细胞生物学)AI 代理的新基准,属于研究范畴。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新基准 scBench-Long 测试 AI 从单细胞数据中得出科学结论的能力

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Ian Diks, Zhen Yang, Arjun Banerjee, Tim Proctor, Kenny Workman ·

    scBench-Long:长视域单细胞生物学的可验证基准测试

    arXiv:2606.26563v1 Announce Type: cross Abstract: Single-cell studies require analysts to convert raw measurements into specific biological claims through multi-step workflows and integration of metadata, assay context, and auxiliary evidence. Existing AI-biology benchmarks large…