Code Arena Web 开发和代理编码工作流排行榜已根据 391,241 票评估了 90 个模型。表现最佳的模型包括 Anthropic 的 Claude Fable-5、智谱 AI 的 GLM-5.2、多个 Claude Opus 模型以及 OpenAI 的 GPT-5.5。该排行榜提供了关于 Elo 评分、投票数和每代币成本的比较数据,以评估代理 AI 的性能。 AI
影响 为 Web 开发和代理编码任务中的各种 AI 模型性能提供了见解,影响了未来的模型开发和采用。
排序理由 这是 AI 模型的研究基准测试结果。[lever_c_demoted from research: ic=1 ai=1.0]
在 Mastodon — sigmoid.social 阅读 →
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →