一项名为DeepSWE的新基准测试已被开发出来,以更准确地评估前沿AI模型的编码能力。与之前的基准测试不同,DeepSWE是无污染的,其任务是从头开始创建的,以避免模型在预训练期间看到解决方案。它在91个代码库和五种语言中具有高度多样性,通过更长的解决方案和比现有基准测试更多的输出令牌来呈现真实世界的复杂性。该基准测试还采用可靠的手写验证器来测试软件行为,旨在反映软件工程任务中的实际性能。 AI
影响 为AI编码代理提供更现实的评估,可能指导未来的模型开发和应用。
排序理由 发布了用于评估AI模型的新基准测试论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →