研究人员开发了一个新的框架,用于合并大型预训练Transformer模型,特别是那些拥有数十亿参数的模型。该方法通过同时优化两个模型端点的插值路径来解决先前方法的局限性,并使用双重学习过程来对齐它们。该技术在WikiText数据集上对中等参数语言模型表现出接近零损失的障碍,并在ImageNet上对Vision Transformer Large模型保持了高精度,这表明解决参数对称性可以实现大规模Transformer架构的可靠线性合并。 AI
影响 这项研究可能带来更有效的方法来组合和改进大型语言模型和视觉模型。
排序理由 该集群包含一篇学术论文,详细介绍了一种合并大型神经网络模型的新方法。[lever_c_demoted from research: ic=1 ai=1.0]
- arXiv
- Billion Parameter Pretrained Transformers
- Hugging Face
- ImageNet
- linear mode connectivity
- transformers
- Vision Transformer Large
- wikitext
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →