PulseAugur
实时 04:42:26
English(EN) Diff-Based Code Corruption using LLMs for Large-Scale Bugfix Benchmarking

新的 MegaBugFix 基准揭示了 LLM 的错误修复局限性

研究人员开发了 MegaBugFix,这是一个旨在更准确地评估大型语言模型 (LLM) 错误修复能力的新基准。该基准包含 12,629 个由 LLM 合成的带错误 Python 程序,使用 diff 来表示代码更改,这有助于避免简单变异技术的常见陷阱。在 MegaBugFix 上的评估显示,13 个开源模型与它们在现有较小基准上的表现相比效果较差,这表明 MegaBugFix 提出了更具挑战性和代表性的错误。 AI

影响 该基准通过突出当前的局限性,有可能推动更强大的 LLM 在软件工程任务中的发展。

排序理由 该集群描述了一篇介绍用于评估 LLM 能力的新颖基准的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新的 MegaBugFix 基准揭示了 LLM 的错误修复局限性

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Bal\'azs Szalontai, \'Abel Szauter, Bal\'azs M\'arton, P\'eter Verebics, Bal\'azs Pint\'er, Tibor Gregorics ·

    Diff-Based Code Corruption using LLMs for Large-Scale Bugfix Benchmarking

    arXiv:2606.29088v1 Announce Type: cross Abstract: There are various benchmarks to evaluate bugfixing capabilities of Large Language Models. However, most widespread benchmarks do not fully reflect real-world bugfixing practices. They are small, weakening statistical reliability, …