研究人员推出了 SWE-fficiency,这是一个旨在评估语言模型在真实软件存储库上性能优化能力的新基准。该基准包含 498 个任务,涵盖 NumPy 和 Pandas 等九个流行的数据科学、机器学习和 HPC 存储库。它挑战代理分析代码、识别性能瓶颈并提出能够匹配或超越专家加速效果但又能通过所有单元测试的补丁。初步评估显示,当前最先进的代理表现明显不佳,由于在定位、跨函数推理和保持代码正确性方面存在困难,其加速效果仅为专家的 0.23 倍以下。 AI
影响 该基准测试有望加速对能够进行复杂、长时推理以优化软件性能的 LLM 的研究。
排序理由 该集群包含一篇研究论文,详细介绍了用于评估 LLM 在软件工程任务上表现的新基准。 [lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →