PulseAugur
实时 16:53:45
实体 Stephan Xie

Stephan Xie

PulseAugur coverage of Stephan Xie — every cluster mentioning Stephan Xie across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_14378 ·

    ARFBench 为软件事件响应中的时间序列问答能力基准测试基础模型

    研究人员推出了 ARFBench,这是一个旨在评估多模态基础模型的时间序列问答能力的新基准,特别是在软件事件响应方面。该基准包含 750 个问题,源自 Datadog 的真实生产事件,总计超过 538 万个数据点。初步评估显示,领先的多模态模型取得了中等准确率,其中 GPT-5 的准确率为 62.7%,而一种新颖的混合时间序列和视觉语言模型原型则展示了相当的性能。研究还强调,将模型输出与人类专家答案相结合,可以创建一个“模型-专家神谕…