实体
Billion Parameter Pretrained Transformers
Billion Parameter Pretrained Transformers
PulseAugur coverage of Billion Parameter Pretrained Transformers — every cluster mentioning Billion Parameter Pretrained Transformers across labs, papers, and developer communities, ranked by signal.
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
2
90 天内 2
层级分布 · 90 天
主题
情绪 · 30 天
2 天有情绪数据
最近 · 第 1/1 页 · 共 2 条
-
新框架支持数十亿参数Transformer模型的线性合并
研究人员开发了一个新的框架,用于合并大型预训练Transformer模型,特别是那些拥有数十亿参数的模型。该方法通过同时优化两个模型端点的插值路径来解决先前方法的局限性,并使用双重学习过程来对齐它们。该技术在WikiText数据集上对中等参数语言模型表现出接近零损失的障碍,并在ImageNet上对Vision Transformer Large模型保持了高精度,这表明解决参数对称性可以实现大规模Transformer架构的可靠线性合并。
-
新研究探索合并大型Transformer模型和提高循环模型稳定性
两篇新研究论文探索了增强大型Transformer模型能力和稳定性的新颖技术。第一篇论文介绍了一个可扩展的线性模式连接(LMC)框架,该框架允许合并数十亿参数的预训练Transformer,在WikiText上展示了接近零损耗的障碍,并保持了视觉Transformer在ImageNet上的高精度。第二篇论文研究了循环Transformer中的残差缩放,提出了一种新的缩放因子,该因子提高了可训练性,并允许在不同有效深度之间直接进行超参数…