实体
William P. Merrill
William P. Merrill
PulseAugur coverage of William P. Merrill — every cluster mentioning William P. Merrill across labs, papers, and developer communities, ranked by signal.
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
2
90 天内 2
层级分布 · 90 天
主题
情绪 · 30 天
2 天有情绪数据
最近 · 第 1/1 页 · 共 2 条
-
Olmo Hybrid语言模型展现出改进的可扩展性和表达能力
研究人员推出Olmo Hybrid,一款结合了循环和注意力机制的新的70亿参数语言模型。这种混合架构采用Gated DeltaNet层,与传统的Transformer及其前身Olmo 3相比,展现出更优越的性能和更高效的可扩展性。该研究从理论和实践上证明,Olmo Hybrid能够执行超越纯粹Transformer和线性RNN的任务,包括代码执行,预示着语言模型发展的一个有前景的新方向。
-
论文将线性 RNN 与电路联系起来,解释了并行性
研究人员探索了线性 RNN (LRNN) 作为语言模型,注意到它们的表达能力和并行性。一篇新论文将 LRNN 与算术电路联系起来,通过表明它们类似于对数深度电路来解释它们的并行性质,这与可以解决更复杂问题的非线性 RNN 不同。这项理论工作确定了不同 LRNN 变体之间的表达能力差异,并为设计平衡表达能力和并行性的 LLM 架构奠定了基础。