PulseAugur
实时 07:41:19
English(EN) EpiBench: Verifiable Evaluation of AI Agents on Epigenomics Analysis

EpiBench基准显示AI代理在表观基因组学分析方面存在困难

一个新的名为EpiBench的基准已被开发出来,用于评估AI代理在短期表观基因组学分析任务上的表现。该基准包含106项跨越各种基因组测定工作流程的评估,发现没有一个AI系统能通过大部分尝试。GPT-5.5 / Pi表现最佳,通过了45.0%的任务,紧随其后的是GPT-5.5 / OpenAI Codex和Claude Opus 4.8 Max / Pi。虽然代理通常能够识别正确的文件并计算中间结果,但它们在需要深入、特定于测定的科学判断的任务上遇到了困难。 AI

影响 突显了AI代理在复杂科学领域当前的局限性,表明需要改进推理和领域特定判断能力。

排序理由 该集群描述了一个用于评估AI代理在特定科学任务上表现的新学术基准。

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

报道来源 [2]

  1. arXiv cs.AI TIER_1 English(EN) · Harihara Muralidharan, Reema Baskar, Soo Hee Lee, Tim Proctor, Kenny Workman ·

    EpiBench: Verifiable Evaluation of AI Agents on Epigenomics Analysis

    arXiv:2606.13602v1 Announce Type: new Abstract: We introduce EpiBench, a verifiable benchmark for short-horizon epigenomics analysis. EpiBench evaluates whether agents can make well-defined analysis decisions from realistic workflow states and return deterministically gradable an…

  2. arXiv cs.AI TIER_1 English(EN) · Kenny Workman ·

    EpiBench: Verifiable Evaluation of AI Agents on Epigenomics Analysis

    We introduce EpiBench, a verifiable benchmark for short-horizon epigenomics analysis. EpiBench evaluates whether agents can make well-defined analysis decisions from realistic workflow states and return deterministically gradable answers. The benchmark includes 106 evaluations ac…