PulseAugur
实时 15:15:41
English(EN) SWE-rebench Leaderboard (March, April and May 2026): GPT-5.5, Opus 4.7, Cursor (Composer 2.5), Kimi K2.6 and More

SWE-rebench 排行榜新增 110 个面向 AI 模型的 Python 任务

SWE-rebench 排行榜已更新,新增了来自 GitHub PR 的 110 个 Python 任务,涵盖 3 月、4 月和 5 月。此次更新侧重于评估模型阅读真实问题、编辑代码和通过测试套件的能力。未来的更新将包括更多模型,如 Gemini Flash 3.5DeepSeek v4 Pro,以及多语言任务和本地开发选项。 AI

影响 为 AI 模型在软件工程任务上提供了更新的基准测试,影响未来的开发和评估策略。

排序理由 该集群报告了 AI 模型基准排行榜的更新,这是一种研究评估形式。[lever_c_降级自研究: ic=1 ai=1.0]

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

SWE-rebench 排行榜新增 110 个面向 AI 模型的 Python 任务

报道来源 [1]

  1. r/LocalLLaMA TIER_1 English(EN) · /u/CuriousPlatypus1881 ·

    SWE-rebench 排行榜 (2026年3月、4月和5月):GPT-5.5, Opus 4.7, Cursor (Composer 2.5), Kimi K2.6 等

    <table> <tr><td> <a href="https://www.reddit.com/r/LocalLLaMA/comments/1tpawlm/swerebench_leaderboard_march_april_and_may_2026/"> <img alt="SWE-rebench Leaderboard (March, April and May 2026): GPT-5.5, Opus 4.7, Cursor (Composer 2.5), Kimi K2.6 and More" src="https://external-pre…