Datacurve开发的新基准测试DeepSWE将OpenAI的GPT-5.5定位为领先的编码任务AI模型。该基准测试通过强调验证器设计如何影响AI性能指标,挑战了现有排名。在这些特定的编码评估中,GPT-5.5的表现优于Anthropic的Claude Opus 4.7等模型。 AI
影响 为AI编码性能建立了新的基准,可能影响未来的模型开发和评估。
排序理由 该集群描述了一个新的基准测试及其结果,这是一个研究里程碑。[lever_c_demoted from research: ic=1 ai=1.0]
在 Mastodon — fosstodon.org 阅读 →
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →