PulseAugur
实时 02:39:00
English(EN) SWE-Chain: Benchmarking Coding Agents on Chained Release-Level Package Upgrades

新的SWE-Chain基准测试用于评估编码代理的链式包升级能力

研究人员推出了SWE-Chain,这是一个旨在评估编码代理在执行连续、发布级别的包升级方面的能力的新基准。该基准通过链接版本转换来模拟真实的软件维护,每次升级都建立在代理先前工作的基础上。初步测试表明,当前前沿代理在这些链式升级方面存在困难,平均解决率为44.8%,尽管Claude-Opus-4.7表现最佳。 AI

影响 该基准将有助于推动能够执行复杂、多步骤软件维护任务的AI代理的进步。

排序理由 该集群包含一篇介绍用于评估AI模型的新基准的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新的SWE-Chain基准测试用于评估编码代理的链式包升级能力

报道来源 [1]

  1. arXiv cs.CL TIER_1 English(EN) · Michael R. Lyu ·

    SWE-Chain: Benchmarking Coding Agents on Chained Release-Level Package Upgrades

    Coding agents powered by large language models are increasingly expected to perform realistic software maintenance tasks beyond isolated issue resolution. Existing benchmarks have shifted toward realistic software evolution, but they rarely capture continuous maintenance at the g…