Zyphra 发布了 ZAYA1-8B,一个拥有 84 亿参数的混合专家(Mixture-of-Experts)模型,每个 token 仅激活约 7.6 亿参数。该架构使其在数学和编码基准测试中能够达到与更大模型相媲美的性能,包括 Claude 4.5 Sonnet。该模型采用了压缩卷积注意力(Compressed Convolutional Attention)和基于 MLP 的专家选择路由器等架构改进,并在大量 AMD Instinct MI300x 节点集群上进行了训练。 AI
影响 以显著减少的活跃参数实现了前沿水平的性能,可能降低先进模型的推理成本。
排序理由 来自拥有新颖架构创新的实验室的模型发布。[lever_c_demoted from frontier_release: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →