English(EN) ProgramBench: Can Language Models Rebuild Programs From Scratch?

ProgramBench基准测试发现语言模型难以从头开始构建软件

作者 PulseAugur 编辑部 · [2 个来源] · 2026-05-05 09:17

研究人员推出了ProgramBench，这是一个旨在评估语言模型整体软件开发能力的新基准。该基准挑战AI代理仅根据程序文档，从头开始构建和实现整个代码库。在包括FFmpeg和SQLite等软件实现的200项任务中，接受评估的九个语言模型均未能完全完成任何一项任务，表现最好的模型平均仅通过3%的测试。 AI

影响凸显了当前大型语言模型在复杂软件工程任务中的局限性，表明需要进一步研究以实现自主代码生成。

排序理由这是一篇介绍用于评估语言模型在软件开发中表现的新基准的研究论文。

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.AI TIER_1 English(EN) · John Yang, Kilian Lieret, Jeffrey Ma, Parth Thakkar, Dmitrii Pedchenko, Sten Sootla, Emily McMilin, Pengcheng Yin, Rui Hou, Gabriel Synnaeve, Diyi Yang, Ofir Press · 2026-05-07 04:00

ProgramBench：语言模型能否从头开始重建程序？

arXiv:2605.03546v1 Announce Type: cross Abstract: Turning ideas into full software projects from scratch has become a popular use case for language models. Agents are being deployed to seed, maintain, and grow codebases over extended periods with minimal human oversight. Such set…
arXiv cs.AI TIER_1 English(EN) · Ofir Press · 2026-05-05 09:17

ProgramBench：语言模型能否从头开始重建程序？

Turning ideas into full software projects from scratch has become a popular use case for language models. Agents are being deployed to seed, maintain, and grow codebases over extended periods with minimal human oversight. Such settings require models to make high-level software a…

报道来源 [2]

ProgramBench：语言模型能否从头开始重建程序？

ProgramBench：语言模型能否从头开始重建程序？

相关实体

相关话题