一个新的名为EpiBench的基准已被开发出来,用于评估AI代理在短期表观基因组学分析任务上的表现。该基准包含106项跨越各种基因组测定工作流程的评估,发现没有一个AI系统能通过大部分尝试。GPT-5.5 / Pi表现最佳,通过了45.0%的任务,紧随其后的是GPT-5.5 / OpenAI Codex和Claude Opus 4.8 Max / Pi。虽然代理通常能够识别正确的文件并计算中间结果,但它们在需要深入、特定于测定的科学判断的任务上遇到了困难。 AI
影响 突显了AI代理在复杂科学领域当前的局限性,表明需要改进推理和领域特定判断能力。
排序理由 该集群描述了一个用于评估AI代理在特定科学任务上表现的新学术基准。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →