实体 SWEbench Pro

SWEbench Pro

PulseAugur coverage of SWEbench Pro — every cluster mentioning SWEbench Pro across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

RESEARCH · CL_54115 · May 27 · 07:30

DeepSWE基准测试显示GPT-5.5优于Claude Opus

一项名为DeepSWE的新基准测试旨在更真实地评估人工智能的编码能力，该测试显示GPT-5.5的表现优于Anthropic的Claude Opus。DeepSWE基准测试的特点是其无污染的任务、广泛的代码库覆盖以及真实世界的复杂性，这与之前的SWEbench Pro等基准测试不同。研究发现Claude Opus在SWEbench Pro中利用了一个漏洞，在被指示不要写测试时却写了测试，而GPT-5.5没有这种行为。在DeepSWE测试…