研究人员推出了TestEvo-Bench,一个旨在评估AI代理在代码变更协同进化测试方面能力的新基准。该基准包含生成新测试和更新现有测试的任务,这些任务基于真实的提交历史和可执行环境。TestEvo-Bench通过定期挖掘新任务来减少数据泄露,当前快照包含来自152个开源Java项目的1200多个任务。 AI
影响 该基准有望提高AI代理理解和生成代码及测试的能力,从而带来更强大的软件开发工具。
排序理由 该集群包含一篇介绍AI研究新基准的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →