研究人员推出Olmo Hybrid,一款结合了循环和注意力机制的新的70亿参数语言模型。这种混合架构采用Gated DeltaNet层,与传统的Transformer及其前身Olmo 3相比,展现出更优越的性能和更高效的可扩展性。该研究从理论和实践上证明,Olmo Hybrid能够执行超越纯粹Transformer和线性RNN的任务,包括代码执行,预示着语言模型发展的一个有前景的新方向。 AI
影响 引入了一种混合架构,与纯粹的Transformer相比,展现出更好的可扩展性和表达能力。
排序理由 该集群描述了一篇关于新型语言模型架构及其性能评估的新研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
- alphaXiv
- arXiv
- CatalyzeX Code Finder for Papers
- Connected Papers
- DagsHub
- Gated DeltaNet
- Gotit.pub
- Hugging Face
- Litmaps
- Olmo 3
- Olmo Hybrid
- ScienceCast
- scite Smart Citations
- William P. Merrill
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →