研究人员推出了SWE-Chain,这是一个旨在评估编码代理在执行连续、发布级别的包升级方面的能力的新基准。该基准通过链接版本转换来模拟真实的软件维护,每次升级都建立在代理先前工作的基础上。初步测试表明,当前前沿代理在这些链式升级方面存在困难,平均解决率为44.8%,尽管Claude-Opus-4.7表现最佳。 AI
影响 该基准将有助于推动能够执行复杂、多步骤软件维护任务的AI代理的进步。
排序理由 该集群包含一篇介绍用于评估AI模型的新基准的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →