PulseAugur
实时 20:34:51
实体 ITBench-AA

ITBench-AA

PulseAugur coverage of ITBench-AA — every cluster mentioning ITBench-AA across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
时间线
  1. 2026-05-27 research_milestone Artificial Analysis and IBM Research launched ITBench-AA, a new benchmark for evaluating AI models on enterprise IT tasks, with initial results showing frontier models scoring below 50% on SRE tasks. 来源
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_55113 ·

    前沿AI模型未能通过新的IT基准测试,得分低于50%

    一项新的基准测试ITBench-AA已发布,用于评估前沿AI模型在企业IT任务(特别是站点可靠性工程SRE)方面的能力。在初步测试中,即使是Claude Opus 4.7和GPT-5.5等最先进的模型,在诊断Kubernetes事件方面的得分也低于50%。该基准测试显示,模型在根本原因分析方面存在困难,并且更长的调查轨迹不一定会带来更高的准确性,有些模型会过度调查并识别出假阳性。