研究人员推出了一种新颖的神经网络架构Jamba,它结合了循环神经网络(RNN)和Transformer的方面。这种混合方法旨在实现RNN的效率,同时保留Transformer的性能能力。早期评估表明,Jamba在各种基准测试中优于Mixtral等现有模型,这表明了高效大型语言模型设计的一个潜在新方向。 AI
排序理由 发布具有基准性能声明的新模型架构。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →
研究人员推出了一种新颖的神经网络架构Jamba,它结合了循环神经网络(RNN)和Transformer的方面。这种混合方法旨在实现RNN的效率,同时保留Transformer的性能能力。早期评估表明,Jamba在各种基准测试中优于Mixtral等现有模型,这表明了高效大型语言模型设计的一个潜在新方向。 AI
排序理由 发布具有基准性能声明的新模型架构。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →
**AI21 labs** released **Jamba**, a **52B parameter MoE model** with **256K context length** and open weights under Apache 2.0 license, optimized for single A100 GPU performance. It features a unique blocks-and-layers architecture combining transformer and MoE layers, competing w…