用于评估 AI 编码助手的关键工具 SWE-bench 基准测试被发现存在缺陷,不再准确反映性能。已开发出一种名为 DeepSWE 的新评估方法来解决这些问题。这种新方法旨在提供对 AI 编码能力更可靠的评估。 AI
影响 新的评估方法可能导致对 AI 编码工具进行更准确的评估,从而推动更好的开发和采用。
排序理由 该集群讨论了一种新的 AI 编码助手评估方法,表明了一项研究进展。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →