Olmo Hybrid 模型,一个新发布的 7B 参数开源语言模型,采用了一种混合架构,结合了传统的注意力机制和门控 DeltaNet (GDN) 等循环神经网络 (RNN) 模块。这种方法旨在通过将信息压缩到隐藏状态来提高计算效率,从而避免了标准 Transformer 注意力相关的二次成本。此次发布包含了一篇研究论文,详细介绍了混合模型的理论优势和经验证据,证明了与纯 Transformer 架构相比,它们在代币效率方面具有潜力。 AI
排序理由 发布了一个开源模型,并附带了一篇探讨新颖架构方法的 ist 研究论文。
在 Interconnects (Nathan Lambert) 阅读 →
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →