研究人员推出了 TestEvo-Bench,这是一个新的基准测试,旨在评估 AI 代理在代码变更协同进化测试方面的能力。该基准测试包括生成新测试和更新现有测试的任务,这些任务基于真实的提交历史和可执行环境。TestEvo-Bench 旨在通过定期挖掘新任务来减少数据泄露,当前快照包含来自 152 个开源 Java 项目的 1200 多个任务。 AI
影响 该基准测试有望提高 AI 代理理解和生成代码及测试的能力,从而带来更强大的软件开发工具。
排序理由 该集群包含一篇介绍 AI 研究新基准测试的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →