PulseAugur
实时 07:22:45

新的基准测试 TestEvo-Bench 评估 AI 代理在代码和测试协同进化方面的能力

研究人员推出了 TestEvo-Bench,这是一个新的基准测试,旨在评估 AI 代理在代码变更协同进化测试方面的能力。该基准测试包括生成新测试和更新现有测试的任务,这些任务基于真实的提交历史和可执行环境。TestEvo-Bench 旨在通过定期挖掘新任务来减少数据泄露,当前快照包含来自 152 个开源 Java 项目的 1200 多个任务。 AI

影响 该基准测试有望提高 AI 代理理解和生成代码及测试的能力,从而带来更强大的软件开发工具。

排序理由 该集群包含一篇介绍 AI 研究新基准测试的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新的基准测试 TestEvo-Bench 评估 AI 代理在代码和测试协同进化方面的能力

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Jiale Amber Wang, Kaiyuan Wang, Pengyu Nie ·

    TestEvo-Bench: An Executable and Live Benchmark for Test and Code Co-Evolution

    arXiv:2607.02469v1 Announce Type: cross Abstract: Software tests and code evolve together: a code change should be followed by new or updated tests that record the new software behavior. Yet existing test generation and update benchmarks often isolate the test from the code chang…