English(EN) DeepSWE benchmarks indicate that DeepSeek v4 Pro only passes 8% of tasks

DeepSeek v4 Pro在新DeepSWE编码基准测试中表现不佳

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-31 11:09

一项使用DeepSWE进行的最新基准测试评估显示，DeepSeek v4 Pro模型表现不佳，仅通过了8%的任务。这一发现与一些用户体验形成对比，后者认为该模型在与Sonnet 4.6等其他领先模型竞争时具有竞争力。DeepSWE基准测试本身被提出作为软件工程任务的新评估工具。 AI

影响新的基准测试可以揭示模型的弱点，可能指导未来开发和用户对编码任务的期望。

排序理由该集群讨论了对现有模型的新基准测试评估。[lever_c_demoted from research: ic=1 ai=1.0]

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

r/LocalLLaMA TIER_1 English(EN) · /u/Federal_Spend2412 · 2026-05-31 11:09

DeepSWE基准测试显示DeepSeek v4 Pro仅通过8%的任务

<table> <tr><td> <a href="https://www.reddit.com/r/LocalLLaMA/comments/1tsse9i/deepswe_benchmarks_indicate_that_deepseek_v4_pro/"> <img alt="DeepSWE benchmarks indicate that DeepSeek v4 Pro only passes 8% of tasks" src="https://preview.redd.it/u9ccy5h8hg4h1.png?width=140&heig…