实体 Artificial Analysis

Artificial Analysis

PulseAugur coverage of Artificial Analysis — every cluster mentioning Artificial Analysis across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 56

发布 · 30天

90 天内 0

论文 · 30天

90 天内 6

层级分布 · 90 天

frontier release 3
significant 3
research 13
tool 29
commentary 8

主题

模型发布 36
产品 35
基础设施 16
其他 13
论文 6
安全 2
观点 2
政策 1

关系

instance of GLM-5.2 95%
used by Fireworks AI 90%
instance of MiniMax M2.7 90%
used by GLM-5.2 70%
instance of Fireworks AI 70%
competes with Opus 4.8 70%
instance of MiniMax M3 70%
used by MiniMax M3 50%
used by MiniMax M2.7 50%

时间线

2026-06-16 research_milestone Artificial Analysis released an updated version of its Intelligence Index, version 4.1, which includes a greater emphasis on agentic workloads and improved benchmarks. 来源

情绪 · 30 天

20 天有情绪数据

最近 · 第 1/3 页 · 共 56 条

SIGNIFICANT · CL_134542 · Jul 9 · 18:46

Meta 投资 90 亿美元建设加拿大数据中心；AI 编码技能和基准测试引发争论 · 跟踪 4 个来源

Meta 计划在未来两到三年内投资约 90 亿美元，在艾伯塔省建设其在加拿大的首个数据中心，这标志着其人工智能和云计算基础设施的重大扩张。与此同时，人工智能社区的讨论强调了基础软件工程技能的持久重要性，即使人工智能工具在编码中的应用越来越普遍。专家们还就人工智能基准测试的可靠性展开了辩论，认为结合多个有缺陷的基准测试可以产生更值得信赖的评估，其中 Artificial Analysis 被认为是一个相对可靠的标准。此外，一个新的基准测…
SIGNIFICANT · CL_134311 · Jul 9 · 15:01

Tencent 发布 Hy3 模型，拥有 2950 亿参数和 256K 上下文

Tencent 发布了 Hy3，一个开放权重的人工智能模型，拥有 2950 亿参数，具备 210 亿活跃参数推理和 38 亿参数预测头。该模型拥有 256K 上下文窗口，并采用 top-8 路由和 192 个专家。Hy3 以 Apache 2.0 许可发布，可在 OpenRouter 上使用，每百万输入 tokens 约 6 美分，并有涵盖入驻成本的介绍性优惠。
TOOL · CL_132427 · Jul 8 · 15:59

Anthropic的Claude Fable 5在行业基准测试中领先，但成本高昂

根据Artificial Analysis的数据，Anthropic的Claude Fable 5在包括金融、法律和医学在内的六项新的行业特定基准测试中取得了顶级性能。然而，这种领先的性能伴随着显著更高的成本，在Strategy & Ops Index中，Claude Fable 5的单次任务定价为3.48美元，是DeepSeek V4 Pro的0.03美元的100多倍，尽管性能差距较小。
TOOL · CL_130814 · Jul 7 · 20:51

Together AI 的 GLM 5.2 在输出速度和延迟方面领先

Together AI 宣布其 GLM 5.2 模型在输出速度和延迟方面均在 Artificial Analysis 上获得最高排名。这使得 GLM 5.2 在推理和开源领域内的性能指标方面成为领先模型。
COMMENTARY · CL_127097 · Jul 6 · 04:43

Anthropic 的 Sonnet 5 定价超出预期，每任务成本高于 Opus 4.8

对 Anthropic 的 Sonnet 5 模型进行的审计显示，其每个已完成任务的定价高于预期，每个任务的成本为 2.29 美元，而宣传的费率为每百万令牌 2 美元。Artificial Analysis 进行此项分析发现，按每任务计算，Sonnet 5 比 Anthropic 的 Opus 4.8 模型更昂贵。研究结果表明 Anthropic 的标价与其用户特定任务的实际成本之间存在差异。
TOOL · CL_119869 · Jul 1 · 03:48

HiDream-O1-Image：创新架构，开源图像生成结果喜忧参半

HiDream-O1-Image 是一款开源文生图模型，尽管在Artificial Analysis排行榜上名列前茅，但评价褒贬不一。其创新的UiT架构，在统一的token空间中处理像素、文本和任务条件，减少了信息损失并提高了效率，使其8B参数能够媲美参数量远超其规模的模型，如Qwen Image 27B。然而，这种新颖的架构与Stable Diffusion的LoRA和ControlNet等现有生态系统不兼容，并且在复杂指令遵循、上…
SIGNIFICANT · CL_118822 · Jun 30 · 19:29

Fireworks AI推出GLM 5.2 Fast以提高推理速度 · 跟踪2个来源

Fireworks AI发布了GLM 5.2模型的更快版本，名为GLM 5.2 Fast。新版本在保持标准GLM 5.2相同质量的同时，实现了显著更高的推理速度，最高可达每秒140个token。该公司还强调了用于实现更高性能的定制部署选项，指出在Artificial Analysis上速度可达每秒446个token。
COMMENTARY · CL_116611 · Jun 29 · 19:35

AI证实学习价值，开放模型引领复杂任务

Ethan Mollick分享了AI驱动的分析见解，强调AI证实了基础学习的重要性。他还展示了AI能力的研究结果，特别指出开放权重模型在复杂、为期数周的咨询任务中保持显著优势，这一点由Artificial Analysis的AA-Briefcase分数表明。
TOOL · CL_109838 · Jun 25 · 06:02

Together AI 声称拥有最快的语音转文本堆栈

Together AI 开发了一个语音转文本系统，实现了行业领先的速度。他们的 'parakeet' 模型在 Together 的基础设施上运行，每秒处理的音频时长约为 302 秒。这一性能由 Artificial Analysis 详细介绍，并由 FeelTheBeurn 进一步解释。
RESEARCH · CL_108898 · Jun 23 · 15:31

Krea 2：新的 12B 开源权重图像模型侧重于创意探索

Krea 2 是一款新发布的 12B 参数开源权重图像生成模型，其重点在于创意探索而非仅仅是精美的默认效果。该模型采用了扩散 Transformer 架构和多阶段训练流程，并整合了 iREPA 和 Qwen3-VL 等组件以提高收敛性和效率。Krea 2 还配备了提示扩展器和风格参考系统，通过文本和图像输入增强可控性，旨在为用户提供对美学变化的更大控制权。
SIGNIFICANT · CL_106010 · Jun 23 · 15:01

Z.ai 的 GLM-5.2 在开放权重模型中达到接近顶级性能 · 跟踪 1 个来源

Z.ai 推出的开放权重模型 GLM-5.2 取得了显著进展，缩小了与领先的专有模型的差距。仅在十周内，GLM-5.2 的人工智能分析指数得分提高了 11 分，达到 51 分，使其在可用性方面与 Claude Fable 5 和 Claude Opus 4.8 等顶级模型相差不到 5 分。该模型在包括物理推理、长上下文推理和代理任务在内的多项挑战性评估中均显示出大幅提升，表明其能力得到了广泛改进，而非单一基准测试的技巧。这些进步归功于…
TOOL · CL_104149 · Jun 22 · 17:54

AI 视频编辑模型对比；SpaceX 签署 63 亿美元计算合同

Artificial Analysis 推出了一个视频编辑模型比较平台，允许用户根据文本到视频编辑能力对 Seedance 2.0、Runway Aleph 2.0、Wan 2.7、HappyHorse 1.0、Kling 3.0 Omni 和 SkyReels V4 等模型的性能进行投票。此外，SpaceX 已与 ReflectionAI 达成一项价值 63 亿美元的重大计算合同，该合同将持续到 2029 年 7 月，每月支付 1.…
COMMENTARY · CL_103498 · Jun 22 · 03:16

用户寻求更好的量化AI模型排行榜

一位 Reddit r/LocalLLaMA 用户正在寻找一种更好的方法来比较量化大型语言模型的性能。他们发现现有的“人工智能分析”排行榜对于评估模型智能很有用，但指出它未能考虑到量化，而量化对于开源模型至关重要。该用户正在寻找替代方法来评估和比较这些量化模型与彼此以及与专有模型，而无需单独运行每个模型。
COMMENTARY · CL_103107 · Jun 21 · 20:56

开源模型：从专有模型切换几乎没有坏处

Andrew Marble 认为，使用开源 AI 模型相关的职业风险正在减小，这与过去从 Windows 转向 Linux 的过程类似。虽然 Claude 和 GPT 等专有模型目前在性能上处于领先地位，并提供更用户友好的 API，但 Marble 认为差距正在缩小。他预计，日益增长的隐私担忧以及对顶级模型可能提出的身份验证要求，将促使用户转向开源替代方案，即使这意味着生产力会暂时下降。
TOOL · CL_106338 · Jun 21 · 02:19

新的智能指数对前沿人工智能模型进行排名

Artificial Analysis 开发了一个“智能指数”来量化前沿人工智能模型的能力。该指数是九项评估的加权平均值，重点关注代理任务。虽然目前闭源模型在指数的所有三个类别中均处于领先地位，但由于缺乏对其规模和架构的透明度，比较受到限制。表现最佳的开源模型 GLM-5.2 是一个完全文档化的 753B expert 混合模型。
SIGNIFICANT · CL_100054 · Jun 19 · 05:53

GLM-5.2 成为顶级开源 AI 模型，可与 GPT-5.5 相媲美

开源语言模型 GLM-5.2 已引起广泛关注，多个来源表明其性能可与 GPT-5.5 和 Anthropic 的 Opus 4.8 等前沿模型相媲美。该模型具有架构改进，包括用于降低长上下文推理成本的 IndexShare，并通过 Hugging Face 和本地实现广泛可用。其他开源模型，如具有 256K 上下文窗口的 Laguna M.1 和 Cohere 的 North Mini Code，也已发布并进行了优化。
TOOL · CL_99829 · Jun 19 · 02:32

GLM-5.2 在编码任务上可与 Anthropic Opus 4.8 相媲美，推动成本竞争

Artificial Analysis 已将 GLM-5.2 列为领先的开源模型，并指出其在编码任务上的表现可与 Anthropic 的 Opus 4.8 相媲美。这一发展预示着主要人工智能模型供应商将面临显著的成本竞争。
TOOL · CL_99467 · Jun 19 · 00:22

Artificial Analysis 发布新 AABriefcase 基准测试 AI 系统

Artificial Analysis 推出了名为 AABriefcase 的新基准测试，旨在评估 AI 系统。该公告通过 X（前身为 Twitter）上的帖子发布，并在 Reddit 的 r/singularity 版块分享。
COMMENTARY · CL_97924 · Jun 18 · 04:01

LLM 网关延迟开销可忽略不计，开发者发现

一位开发者花了整整一个月的时间仔细基准测试 LLM 网关延迟，结果发现网关对整体请求时间的贡献微乎其微，通常不到 1%。实际的性能瓶颈在于模型选择、智能路由、缓存和提示优化，其中模型选择的影响最大。作者认为，当 LLM 推理本身需要花费的时间是网关开销的几个数量级时，关注微秒级的网关开销是错误的。
TOOL · CL_97108 · Jun 17 · 15:58

MiniMax M3 模型登顶排行榜，提供免费访问，并集成至 Unreal Engine

MiniMax AI 的 M3 模型正获得认可，在排行榜上名列前茅，并在 B.AI 上提供免费访问。该模型还被集成到黑客马拉松中，并与 Unreal Engine 5.8 MCP 等高级软件进行测试。MiniMax AI 正在赞助 BGI Sprint 黑客马拉松，为参与者提供对其模型和 ASI Alliance 技术栈的访问权限。

Meta 投资 90 亿美元建设加拿大数据中心；AI 编码技能和基准测试引发争论 · 跟踪 4 个来源

Tencent 发布 Hy3 模型，拥有 2950 亿参数和 256K 上下文

Anthropic的Claude Fable 5在行业基准测试中领先，但成本高昂

Together AI 的 GLM 5.2 在输出速度和延迟方面领先

Anthropic 的 Sonnet 5 定价超出预期，每任务成本高于 Opus 4.8

HiDream-O1-Image：创新架构，开源图像生成结果喜忧参半

Fireworks AI推出GLM 5.2 Fast以提高推理速度 · 跟踪2个来源

AI证实学习价值，开放模型引领复杂任务

Together AI 声称拥有最快的语音转文本堆栈

Krea 2：新的 12B 开源权重图像模型侧重于创意探索

Z.ai 的 GLM-5.2 在开放权重模型中达到接近顶级性能 · 跟踪 1 个来源

AI 视频编辑模型对比；SpaceX 签署 63 亿美元计算合同

用户寻求更好的量化AI模型排行榜

开源模型：从专有模型切换几乎没有坏处

新的智能指数对前沿人工智能模型进行排名

GLM-5.2 成为顶级开源 AI 模型，可与 GPT-5.5 相媲美

GLM-5.2 在编码任务上可与 Anthropic Opus 4.8 相媲美，推动成本竞争

Artificial Analysis 发布新 AABriefcase 基准测试 AI 系统

LLM 网关延迟开销可忽略不计，开发者发现

MiniMax M3 模型登顶排行榜，提供免费访问，并集成至 Unreal Engine