一项最近的代理编码基准测试显示,更小、更高效的模型在性能上超越了更大、更前沿的模型。SmolLM3 3B 模型能够在笔记本电脑上运行,得分达到 93.3,显著超过了 Grok 4.20 和 DeepSeek V4 Pro 等模型。这表明模型大小可能不是代理编码能力的决定性因素,挑战了之前关于高级任务必须拥有海量参数的假设。 AI
影响 证明了小型模型可以在代理编码任务中实现高性能,从而可能降低高级AI应用的硬件要求。
排序理由 该集群报告了AI模型的基准测试结果,这是一种研究形式。[lever_c_demoted from research: ic=1 ai=1.0]
- Claude Sonnet
- DeepSeek V4 Pro
- GPT-5.4 Pro
- GPT-5.5 Pro
- Grok 4.20
- Kimi K2.6
- Lyria models
- Phi-4-mini
- Qwen2.5
- SmolLM3 3B
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →