English(EN) SWE-fficiency: Can Language Models Optimize Real-World Repositories on Real Workloads?

新的基准测试使用真实代码优化测试 LLM

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-30 04:00

研究人员推出了 SWE-fficiency，这是一个旨在评估语言模型在真实软件存储库上性能优化能力的新基准。该基准包含 498 个任务，涵盖 NumPy 和 Pandas 等九个流行的数据科学、机器学习和 HPC 存储库。它挑战代理分析代码、识别性能瓶颈并提出能够匹配或超越专家加速效果但又能通过所有单元测试的补丁。初步评估显示，当前最先进的代理表现明显不佳，由于在定位、跨函数推理和保持代码正确性方面存在困难，其加速效果仅为专家的 0.23 倍以下。 AI

影响该基准测试有望加速对能够进行复杂、长时推理以优化软件性能的 LLM 的研究。

排序理由该集群包含一篇研究论文，详细介绍了用于评估 LLM 在软件工程任务上表现的新基准。 [lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Jeffrey Jian Ma, Milad Hashemi, Amir Yazdanbakhsh, Kevin Swersky, Ofir Press, Enhui Li, Vijay Janapa Reddi, Parthasarathy Ranganathan · 2026-06-30 04:00

SWE-fficiency: Can Language Models Optimize Real-World Repositories on Real Workloads?

arXiv:2511.06090v3 Announce Type: replace-cross Abstract: Optimizing the performance of large-scale software repositories demands expertise in code reasoning and software engineering (SWE) to reduce runtime while preserving program correctness. However, most benchmarks emphasize …

报道来源 [1]

SWE-fficiency: Can Language Models Optimize Real-World Repositories on Real Workloads?

相关实体

相关话题