English(EN) Diff-Based Code Corruption using LLMs for Large-Scale Bugfix Benchmarking

新的 MegaBugFix 基准揭示了 LLM 的错误修复局限性

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-30 04:00

研究人员开发了 MegaBugFix，这是一个旨在更准确地评估大型语言模型 (LLM) 错误修复能力的新基准。该基准包含 12,629 个由 LLM 合成的带错误 Python 程序，使用 diff 来表示代码更改，这有助于避免简单变异技术的常见陷阱。在 MegaBugFix 上的评估显示，13 个开源模型与它们在现有较小基准上的表现相比效果较差，这表明 MegaBugFix 提出了更具挑战性和代表性的错误。 AI

影响该基准通过突出当前的局限性，有可能推动更强大的 LLM 在软件工程任务中的发展。

排序理由该集群描述了一篇介绍用于评估 LLM 能力的新颖基准的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Bal\'azs Szalontai, \'Abel Szauter, Bal\'azs M\'arton, P\'eter Verebics, Bal\'azs Pint\'er, Tibor Gregorics · 2026-06-30 04:00

Diff-Based Code Corruption using LLMs for Large-Scale Bugfix Benchmarking

arXiv:2606.29088v1 Announce Type: cross Abstract: There are various benchmarks to evaluate bugfixing capabilities of Large Language Models. However, most widespread benchmarks do not fully reflect real-world bugfixing practices. They are small, weakening statistical reliability, …

报道来源 [1]

Diff-Based Code Corruption using LLMs for Large-Scale Bugfix Benchmarking

相关实体

相关话题