DeepSWE 基准测试迎来了两个新的代码生成模型:Claude Fable 5 和 Kimi 2.7。这两个模型现已在该基准测试上可供评估,该基准测试专注于评估人工智能在软件工程任务中的能力。它们在 DeepSWE 上的表现将为我们提供关于它们在代码生成和理解方面的有效性的见解。 AI
影响 新模型正在特定基准测试上进行评估,从而为了解其代码生成能力提供了见解。
排序理由 新模型正在特定基准测试上进行评估。 [lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →