多家领先的 AI 实验室发布了新的开源模型,包括 DeepSeek V4、Gemma 4、Kimi K2.6 和 MiMo 2.5。CAISI 的一项评估表明,这些开源模型落后于前沿闭源模型,且差距正在扩大。然而,评估方法和基准测试的局限性也引发了争议,一些人认为标准化测试未能完全捕捉实际能力,尤其是在编码等复杂任务中。 AI
影响 新的开源模型挑战前沿能力,引发了关于基准测试有效性和真实性能差距的争论。
排序理由 该集群讨论了新的开源模型发布及其比较基准测试性能,包括对评估方法的批评。
在 Interconnects (Nathan Lambert) 阅读 →
- CAISI
- DeepSeek
- DeepSeek V4
- Epoch AI
- GLM-5.1
- Kimi K2.6
- MiMo 2.5
- Moonshot AI
- Poolside AI
- Xiaomi
- Gemma 4
AI 生成摘要 · Google Gemini · 来自 3 个来源。 我们如何撰写摘要 →