研究人员开发了 MegaBugFix,这是一个旨在更准确地评估大型语言模型 (LLM) 错误修复能力的新基准。该基准包含 12,629 个由 LLM 合成的带错误 Python 程序,使用 diff 来表示代码更改,这有助于避免简单变异技术的常见陷阱。在 MegaBugFix 上的评估显示,13 个开源模型与它们在现有较小基准上的表现相比效果较差,这表明 MegaBugFix 提出了更具挑战性和代表性的错误。 AI
影响 该基准通过突出当前的局限性,有可能推动更强大的 LLM 在软件工程任务中的发展。
排序理由 该集群描述了一篇介绍用于评估 LLM 能力的新颖基准的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →