PulseAugur
实时 20:31:58
实体 Cosmopedia

Cosmopedia

PulseAugur coverage of Cosmopedia — every cluster mentioning Cosmopedia across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_15985 ·

    研究人员探索通过模块化组合和分层扩展来增长 Transformer 模型

    研究人员探索了一种通过向冻结的基础模型增量添加新层来训练 Transformer 模型的方法,同时保持可训练参数的恒定预算。这种被称为“Growing Transformers”的方法表明,即使只更新模型参数的一小部分,新的模块也可以被有效训练。即使在高度受限的 token 接口下,一个 16 层模型也取得了显著的 MMLU 分数,这表明在参数预算限制下持续学习的可行性,尽管与整体训练相比,最终的困惑度有所权衡。