Z.AI 发布了其 GLM 5.1 模型,这是一个开源选项,专为长时序代理任务设计,能够自主运行长达 8 小时。据报道,该模型在 SWE-Bench Pro 基准测试中优于 GPT-5.4、Claude Opus 4.6 和 Gemini 3.1 Pro。该公司还提供 GLM 4.5 Air 用于更快、成本更低的日常使用,以及 GLM 5 Turbo 用于中等级别的代理执行,所有这些都可以通过 MCP Agent Studio 访问,无需 API 密钥或编码。 AI
影响 新的开源模型声称在 SWE-Bench Pro 上达到 SOTA,可能影响代理开发和工具调用能力。
排序理由 Z.AI(前身为 Zhipu AI)发布了 GLM 5.1,这是一个开源模型,在特定基准测试性能方面声称超越竞争对手。[lever_c_demoted from frontier_release: ic=1 ai=1.0]
- BFCL-v3
- Claude Opus 4.6
- Gemini 3.1 Pro
- GLM 4.5 Air
- GLM 5.1
- GLM 5 Turbo
- GPT-5.4
- MCP Agent Studio
- OpenAI
- SWE-Bench Pro
- Z.AI
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →