Artificial Analysis 开发了一个“智能指数”来量化前沿人工智能模型的能力。该指数是九项评估的加权平均值,重点关注代理任务。虽然目前闭源模型在指数的所有三个类别中均处于领先地位,但由于缺乏对其规模和架构的透明度,比较受到限制。表现最佳的开源模型 GLM-5.2 是一个完全文档化的 753B expert 混合模型。 AI
影响 提供了一个新的量化框架来比较人工智能模型的能力,突出了闭源模型的领先地位和开源模型的性能。
排序理由 该集群描述了一种新的人工智能模型基准测试方法。 [lever_c_demoted from research: ic=1 ai=1.0]
在 Mastodon — fosstodon.org 阅读 →
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →