SWE-rebench 排行榜已更新,新增了模型并改进了用户界面,使得在编码任务上比较 AI 性能更加容易。值得注意的新增模型包括 Claude Opus 4.8 xhigh、GLM-5.2 和 Gemini 3.5 Flash,以及多个 Qwen 和 DeepSeek 模型。此次更新还突出了本地和自托管模型的测试结果,鼓励社区就接下来要测试哪些模型提供意见。 AI
影响 为编码代理提供了更新的基准测试,影响开发任务的模型选择。
排序理由 排行榜更新,包含新的模型结果和用户界面改进。[lever_c_demoted from research: ic=1 ai=1.0]
- Claude Opus 4.8 xhigh
- DeepSeek-V4 Flash
- DeepSeek-V4 Pro
- Gemini 3.5 Flash
- Gemma 4 31B
- GLM-5.2
- MiMo V2.5 Pro
- MiniMax M3
- Qwen3.6-27B
- Qwen3.6-35B-A3B
- SWE-rebench
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →