实体 SWE-fficiency

SWE-fficiency

PulseAugur coverage of SWE-fficiency — every cluster mentioning SWE-fficiency across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_117731 · Jun 30 · 04:00

新的基准测试使用真实代码优化测试 LLM

研究人员推出了 SWE-fficiency，这是一个旨在评估语言模型在真实软件存储库上性能优化能力的新基准。该基准包含 498 个任务，涵盖 NumPy 和 Pandas 等九个流行的数据科学、机器学习和 HPC 存储库。它挑战代理分析代码、识别性能瓶颈并提出能够匹配或超越专家加速效果但又能通过所有单元测试的补丁。初步评估显示，当前最先进的代理表现明显不佳，由于在定位、跨函数推理和保持代码正确性方面存在困难，其加速效果仅为专家的 0.…