StepFun 发布了 Step 3.7 Flash,这是一个拥有 1980 亿参数的专家混合(MoE)视觉语言模型,专为编码 Agent 和搜索工作流设计。该新模型具有原生的多模态理解能力、改进的工具使用可靠性以及可选的推理深度,以平衡速度和计算量。Step 3.7 Flash 在 SWE-Bench Pro 等编码基准测试中表现出显著的性能提升,并提供了一种“顾问模式”,其性能接近 Claude Opus 4.6,但成本仅为其一小部分。 AI
影响 为多模态 Agent 编码性能和成本效益设定了新的基准,可能影响未来的 Agent 开发。
排序理由 来自前沿实验室(StepFun)的新模型发布,包含详细的技术规格和基准测试结果。
- Claude Opus 4.6
- Gemini 3 Flash
- GLM 5V Turbo
- GPT 5.5
- Kimi K2.6
- Mixture-of-Experts
- SimpleVQA
- Step 3.5 Flash
- Step 3.7 Flash
- StepFun
- SWE-Bench Pro
AI 生成摘要 · Google Gemini · 来自 6 个来源。 我们如何撰写摘要 →