研究人员推出了MirrorCode,这是一个新的基准测试,旨在评估AI在仅从观察到的行为中重建整个软件项目(无需访问原始源代码)的能力。该基准测试包含25个多样化的目标程序,包括Unix实用程序和生物信息学工具,要求AI代理在各种测试中精确匹配原始程序的输出。目前的AI模型在MirrorCode上已能达到56%的准确率,展示了它们在长时程软件工程任务中的能力,例如重新实现一个名为gotree的16000行生物信息学工具包。MirrorCode的开发表明,随着自主代理的不断进步,AI将极大地改变软件工程。 AI
影响 该基准测试有望加速AI在自主编码和软件工程领域的发展。
排序理由 该集群描述了一个用于评估AI在软件工程领域能力的新的基准测试和研究论文。
- AI
- alphaXiv
- arXiv
- bioinformatics
- CatalyzeX
- C programming language
- cryptography
- DagsHub
- Gotit.pub
- Gotree
- Hugging Face
- MirrorCode
- ScienceCast
- Thomas Adamczewski
- Unix-like operating system
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →