一项使用DeepSWE进行的最新基准测试评估显示,DeepSeek v4 Pro模型表现不佳,仅通过了8%的任务。这一发现与一些用户体验形成对比,后者认为该模型在与Sonnet 4.6等其他领先模型竞争时具有竞争力。DeepSWE基准测试本身被提出作为软件工程任务的新评估工具。 AI
影响 新的基准测试可以揭示模型的弱点,可能指导未来开发和用户对编码任务的期望。
排序理由 该集群讨论了对现有模型的新基准测试评估。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →