实体
ARFBench
ARFBench
PulseAugur coverage of ARFBench — every cluster mentioning ARFBench across labs, papers, and developer communities, ranked by signal.
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
2
90 天内 2
层级分布 · 90 天
情绪 · 30 天
1 天有情绪数据
最近 · 第 1/1 页 · 共 2 条
-
Human engineers outperform GPT-5 and Gemini in system failure diagnosis
A new benchmark called ARFBench reveals that human engineers still significantly outperform AI models like GPT-5 and Gemini in diagnosing system failures. The results challenge the marketing claims of AI's full autonomy…
-
ARFBench 为软件事件响应中的时间序列问答能力基准测试基础模型
研究人员推出了 ARFBench,这是一个旨在评估多模态基础模型的时间序列问答能力的新基准,特别是在软件事件响应方面。该基准包含 750 个问题,源自 Datadog 的真实生产事件,总计超过 538 万个数据点。初步评估显示,领先的多模态模型取得了中等准确率,其中 GPT-5 的准确率为 62.7%,而一种新颖的混合时间序列和视觉语言模型原型则展示了相当的性能。研究还强调,将模型输出与人类专家答案相结合,可以创建一个“模型-专家神谕…