最近对六个四月发布的大型语言模型 (LLM) 进行的一次实测显示,Qwen 3.6 Plus(发布于 22 天前)的表现优于更新的 DeepSeek V4 Pro。尽管 DeepSeek V4 Pro 拥有先进的推理架构,并在 AIME 和 SWE-bench 上取得了最高分,但在测试中仅获得 89 分,而 Qwen 3.6 Plus 得分为 92 分。测试还突显了显著的成本差异,DeepSeek 的 Flash 版本比其 Pro 版本便宜 13 倍,但得分也较低。 AI
影响 Qwen 3.6 Plus 相较于 DeepSeek V4 Pro 等更新的模型在性能和成本效益方面更胜一筹,这表明在生产 LLM 选择方面可能出现最优选择的转变。
排序理由 该集群报告了多个 LLM 的比较基准测试结果,属于研究范畴。
在 Mastodon — fosstodon.org 阅读 →
- Claude Opus 4.6
- Claude Sonnet
- DeepSeek V4 Pro
- Gemini 3 Flash Preview
- GPT-5.5
- Kimi K2.6
- LLM
- OpenRouter
- Qwen 3.6 Plus
- SWE-bench
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →