PulseAugur
实时 05:44:38
English(EN) DeepSWE benchmarks indicate that DeepSeek v4 Pro only passes 8% of tasks

DeepSeek v4 Pro在新DeepSWE编码基准测试中表现不佳

一项使用DeepSWE进行的最新基准测试评估显示,DeepSeek v4 Pro模型表现不佳,仅通过了8%的任务。这一发现与一些用户体验形成对比,后者认为该模型在与Sonnet 4.6等其他领先模型竞争时具有竞争力。DeepSWE基准测试本身被提出作为软件工程任务的新评估工具。 AI

影响 新的基准测试可以揭示模型的弱点,可能指导未来开发和用户对编码任务的期望。

排序理由 该集群讨论了对现有模型的新基准测试评估。[lever_c_demoted from research: ic=1 ai=1.0]

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

DeepSeek v4 Pro在新DeepSWE编码基准测试中表现不佳

报道来源 [1]

  1. r/LocalLLaMA TIER_1 English(EN) · /u/Federal_Spend2412 ·

    DeepSWE基准测试显示DeepSeek v4 Pro仅通过8%的任务

    <table> <tr><td> <a href="https://www.reddit.com/r/LocalLLaMA/comments/1tsse9i/deepswe_benchmarks_indicate_that_deepseek_v4_pro/"> <img alt="DeepSWE benchmarks indicate that DeepSeek v4 Pro only passes 8% of tasks" src="https://preview.redd.it/u9ccy5h8hg4h1.png?width=140&amp;heig…