PulseAugur
实时 01:39:52
实体 masked language model

masked language model

PulseAugur coverage of masked language model — every cluster mentioning masked language model across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_08275 ·

    概率Transformer扩展至0.4B参数,性能优于标准模型

    研究人员开发了一种方法,通过使用最大更新参数化(muP)将超参数从较小模型迁移到较大模型来扩展概率Transformer(PT)。该技术解决了PT对超参数选择的敏感性问题,使其能够高效地扩展到拥有多达0.4亿参数的模型。实验表明,在参数数量相同的情况下,这些扩展后的PT在掩码语言建模任务上的表现优于标准Transformer。