来自 MiniMax 的一款新的开源权重编程模型 M3 已成为顶级模型,在 SWE-bench Pro 基准测试中声称取得了领先分数。M3 于 2026 年 6 月 1 日发布,拥有令人印象深刻的特性,包括 100 万个 token 的上下文窗口和多模态能力,以及专为更快处理而设计的新型稀疏注意力架构。然而,这些基准测试是 MiniMax 自我报告的,独立验证仍在进行中,一些人指出其与稍旧的模型版本进行了比较。 AI
影响 为开源权重编程模型树立了新标杆,可能影响未来的发展和竞争。
排序理由 重要实验室发布的新模型,并附有基准测试声明。[lever_c_demoted from frontier_release: ic=1 ai=1.0]
- Claude Opus 4.7
- Claude Opus 4.8
- Codestral
- DeepSeek
- Gemini 3.1 Pro
- GPT-5.5
- Llama
- MiniMax
- OpenAI
- Qwen
- SWE-bench Pro
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →