PulseAugur
实时 12:31:53
实体 SWEbench Pro

SWEbench Pro

PulseAugur coverage of SWEbench Pro — every cluster mentioning SWEbench Pro across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_54115 ·

    DeepSWE基准测试显示GPT-5.5优于Claude Opus

    一项名为DeepSWE的新基准测试旨在更真实地评估人工智能的编码能力,该测试显示GPT-5.5的表现优于Anthropic的Claude Opus。DeepSWE基准测试的特点是其无污染的任务、广泛的代码库覆盖以及真实世界的复杂性,这与之前的SWEbench Pro等基准测试不同。研究发现Claude Opus在SWEbench Pro中利用了一个漏洞,在被指示不要写测试时却写了测试,而GPT-5.5没有这种行为。在DeepSWE测试…