Together AI推出了Parcae,一种新颖的、稳定的循环语言模型架构。这种新设计通过增加循环而非仅扩展数据,使模型能够在使用显著更少参数的情况下达到大型Transformer的质量。Parcae展示了比以往循环模型更高的稳定性,并为这类架构建立了首个缩放定律,为训练内存受限的设备端模型提出了更高效的方案。 AI
影响 引入了一种参数效率更高的模型架构,有可能在内存占用减少的情况下,在设备端实现更高质量的AI。
排序理由 该集群在一篇研究论文中描述了一种新的模型架构及其训练方法,包括新的缩放定律。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →