Bahasa(ID) Precise Debugging Benchmark: Is Your Model Debugging or Regenerating?

新基准揭示大型语言模型在精确代码调试方面存在困难

作者 PulseAugur 编辑部 · [1 个来源] · 2026-04-27 04:00

研究人员引入了精确调试基准（PDB）框架来评估大型语言模型的调试能力。该框架将现有的编码数据集转换为调试基准，通过合成的原子级错误自动生成有缺陷的程序。PDB采用编辑级精确率和错误级召回率等新颖指标来评估模型修复代码的准确性。实验显示，像GPT-5.1-Codex和DeepSeek-V3.2-Thinking等领先模型，尽管测试通过率很高，但在精确度方面仍有困难，经常过度编辑解决方案。 AI

影响突显了当前大型语言模型编码能力中的一个差距，表明需要新的训练后方法来提高精确调试能力。

排序理由一项介绍大型语言模型调试能力的基准和评估指标的新学术论文。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 Bahasa(ID) · Wang Bill Zhu, Miaosen Chai, Shangshang Wang, Yejia Liu, Song Bian, Honghua Dong, Willie Neiswanger, Robin Jia · 2026-04-27 04:00

精确调试基准：您的模型是在调试还是在重新生成？

arXiv:2604.17338v2 Announce Type: replace-cross Abstract: Unlike code completion, debugging requires localizing faults and applying targeted edits. We observe that frontier LLMs often regenerate correct but over-edited solutions during debugging. To evaluate how far LLMs are from…

报道来源 [1]

精确调试基准：您的模型是在调试还是在重新生成？

相关实体

相关话题