English(EN) Jamba: Mixture of Architectures dethrones Mixtral

Jamba的混合架构在AI基准测试中超越Mixtral

作者 PulseAugur 编辑部 · [1 个来源] · 2024-03-28 23:43

研究人员推出了一种新颖的神经网络架构Jamba，它结合了循环神经网络（RNN）和Transformer的方面。这种混合方法旨在实现RNN的效率，同时保留Transformer的性能能力。早期评估表明，Jamba在各种基准测试中优于Mixtral等现有模型，这表明了高效大型语言模型设计的一个潜在新方向。 AI

排序理由发布具有基准性能声明的新模型架构。

在 Smol AINews 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

Smol AINews TIER_1 English(EN) · 2024-03-28 23:43

Jamba：架构混合模型击败Mixtral

**AI21 labs** released **Jamba**, a **52B parameter MoE model** with **256K context length** and open weights under Apache 2.0 license, optimized for single A100 GPU performance. It features a unique blocks-and-layers architecture combining transformer and MoE layers, competing w…

报道来源 [1]

Jamba：架构混合模型击败Mixtral

相关话题