English(EN) EpiBench: Verifiable Evaluation of AI Agents on Epigenomics Analysis

EpiBench基准显示AI代理在表观基因组学分析方面存在困难

作者 PulseAugur 编辑部 · [2 个来源] · 2026-06-11 17:20

一个新的名为EpiBench的基准已被开发出来，用于评估AI代理在短期表观基因组学分析任务上的表现。该基准包含106项跨越各种基因组测定工作流程的评估，发现没有一个AI系统能通过大部分尝试。GPT-5.5 / Pi表现最佳，通过了45.0%的任务，紧随其后的是GPT-5.5 / OpenAI Codex和Claude Opus 4.8 Max / Pi。虽然代理通常能够识别正确的文件并计算中间结果，但它们在需要深入、特定于测定的科学判断的任务上遇到了困难。 AI

影响突显了AI代理在复杂科学领域当前的局限性，表明需要改进推理和领域特定判断能力。

排序理由该集群描述了一个用于评估AI代理在特定科学任务上表现的新学术基准。

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.AI TIER_1 English(EN) · Harihara Muralidharan, Reema Baskar, Soo Hee Lee, Tim Proctor, Kenny Workman · 2026-06-12 04:00

EpiBench: Verifiable Evaluation of AI Agents on Epigenomics Analysis

arXiv:2606.13602v1 Announce Type: new Abstract: We introduce EpiBench, a verifiable benchmark for short-horizon epigenomics analysis. EpiBench evaluates whether agents can make well-defined analysis decisions from realistic workflow states and return deterministically gradable an…
arXiv cs.AI TIER_1 English(EN) · Kenny Workman · 2026-06-11 17:20

EpiBench: Verifiable Evaluation of AI Agents on Epigenomics Analysis

We introduce EpiBench, a verifiable benchmark for short-horizon epigenomics analysis. EpiBench evaluates whether agents can make well-defined analysis decisions from realistic workflow states and return deterministically gradable answers. The benchmark includes 106 evaluations ac…

报道来源 [2]

EpiBench: Verifiable Evaluation of AI Agents on Epigenomics Analysis

EpiBench: Verifiable Evaluation of AI Agents on Epigenomics Analysis

相关实体

相关话题