SWE-rebench 排行榜已更新,新增了来自 GitHub PR 的 110 个 Python 任务,涵盖 3 月、4 月和 5 月。此次更新侧重于评估模型阅读真实问题、编辑代码和通过测试套件的能力。未来的更新将包括更多模型,如 Gemini Flash 3.5 和 DeepSeek v4 Pro,以及多语言任务和本地开发选项。 AI
影响 为 AI 模型在软件工程任务上提供了更新的基准测试,影响未来的开发和评估策略。
排序理由 该集群报告了 AI 模型基准排行榜的更新,这是一种研究评估形式。[lever_c_降级自研究: ic=1 ai=1.0]
- Cursor (Composer 2.5)
- DeepSeek v4 Pro
- Gemini Flash 3.5
- GPT-5.5
- Kimi K2.6
- Opus 4.7
- Qwen3.5-397B-A17B
- SWE-rebench
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →