English(EN) BeyondSWE: Can Current Code Agent Survive Beyond Single-Repo Bug Fixing?

新的BeyondSWE基准测试代码代理处理复杂的软件工程任务

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-27 04:00

研究人员推出了BeyondSWE，这是一个新的基准，旨在评估代码代理在超越单仓库修复的更复杂的软件工程任务。该基准包含来自246个GitHub仓库的500个实例，涵盖了跨仓库问题解决、依赖迁移和文档到仓库生成等场景。包括一个基于OpenHands的代理和一个使用GPT-5.4并增强搜索功能的代理在内的当前领先代理得分均未饱和，表明它们在整合外部信息和执行广泛仓库级别更改的能力方面有很大的提升空间。 AI

排序理由该集群是关于一篇介绍用于评估AI代码代理的新型基准的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Guoxin Chen, Fanzhe Meng, Jiale Zhao, Minghao Li, Daixuan Cheng, Huatong Song, Jie Chen, Yuzhi Lin, Hui Chen, Xin Zhao, Ruihua Song, Chang Liu, Cheng Chen, Kai Jia, Ji-Rong Wen · 2026-05-27 04:00

BeyondSWE：当前代码代理能否在单仓库修复 Bug 之外生存？

arXiv:2603.03194v2 Announce Type: replace Abstract: Current code-agent benchmarks primarily evaluate localized issue resolution within a single target repository, leaving under-tested many software engineering tasks that require external knowledge or broader repository-level chan…

报道来源 [1]

BeyondSWE：当前代码代理能否在单仓库修复 Bug 之外生存？

相关实体

相关话题