研究人员探索了一种通过向冻结的基础模型增量添加新层来训练 Transformer 模型的方法,同时保持可训练参数的恒定预算。这种被称为“Growing Transformers”的方法表明,即使只更新模型参数的一小部分,新的模块也可以被有效训练。即使在高度受限的 token 接口下,一个 16 层模型也取得了显著的 MMLU 分数,这表明在参数预算限制下持续学习的可行性,尽管与整体训练相比,最终的困惑度有所权衡。 AI
影响 这项研究为更具参数效率的模型扩展和持续学习提供了一条潜在的途径。
排序理由 该集群包含一篇 arXiv 论文,详细介绍了 Transformer 模型的一种新颖训练方法。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →