一款名为 Zaya1-8B 的新语言模型,采用混合专家(Mixture-of-Experts)架构,拥有 7.6 亿活跃参数,在 HMMT '25 数学竞赛中展现出令人印象深刻的性能。值得注意的是,该模型在没有任何 NVIDIA GPU 训练的情况下取得了这些成果,这与典型的高性能人工智能训练方式显著不同。Zaya1-8B 在此特定数学基准测试中超越了 GPT-5-High 的表现,得分 89.6%。 AI
影响 展示了新颖的训练方法可以产生有竞争力的结果,有可能减少对昂贵 GPU 基础设施的依赖。
排序理由 该集群报告了一个新模型在特定基准测试上的表现,属于研究范畴。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →