一项最近的基准测试评估了148个模型在Agent编码任务上的表现,其中Qwen3 Coder 30B A3B和最初的DeepSeek Chat两个模型达到了90%的成功率。Qwen3 Coder模型以0.0004美元的成本在28秒内完成了任务,而DeepSeek Chat则花费了0.0018美元,耗时59秒。Liquid的LFM 2 24B A2B在十项任务中以0.0002美元的成本获得85%的得分,成为最具成本效益的模型。 AI
影响 凸显了编码Agent模型在成本效益方面的显著提升,可能降低复杂AI任务实现的门槛。
排序理由 这是对多个AI模型在特定任务上的基准评估,而非新前沿模型的发布或重大的行业事件。[lever_c_demoted from research: ic=1 ai=1.0]
- Aion 1.0
- Baidu Ernie 4.5 300B
- Claude Opus 4
- Cydonia 24B V4.1
- DeepSeek Chat
- LFM 2 24B A2B
- MiniMax M2 Her
- Mistral Small 3.2
- OpenRouter
- Qwen3 14B
- Qwen3.7 Max
- Qwen3 Coder 30B A3B
- TheDrummer
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →