Zyphra 发布了 ZAYA1-8B,这是一个获得 Apache 2.0 许可的混合专家(Mixture-of-Experts)推理模型,拥有 84 亿总参数和约 7.6 亿激活参数。值得注意的是,该模型完全在 AMD Instinct MI300X GPU 上训练,展示了开源 AI 生态系统的硬件多样性。虽然 ZAYA1-8B 在同等规模的模型中,在数学和推理基准测试上表现强劲,接近前沿模型,但其最佳性能依赖于 Zyphra 对 vLLM 或 transformers 的自定义分支,这给没有这些特定设置的用户带来了自托管的挑战。 AI
影响 该模型在 AMD 硬件上高效的推理能力可能会鼓励 AI 开发中更大的硬件多样性。
排序理由 来自前沿相邻实验室(Zyphra)的新模型发布,具有新颖的架构和硬件训练细节。[lever_c_demoted from frontier_release: ic=1 ai=1.0]
- AMD Instinct MI300X
- Apache 2.0
- Claude 4.5 Sonnet
- DeepSeek-R1-0528
- Gemini 2.5 Pro
- Gemma-4E4B-it
- Qwen3-4B-Thinking-2507
- transformers
- vLLM
- ZAYA1-8B
- Zyphra
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →