两篇新研究论文探索了增强大型Transformer模型能力和稳定性的新颖技术。第一篇论文介绍了一个可扩展的线性模式连接(LMC)框架,该框架允许合并数十亿参数的预训练Transformer,在WikiText上展示了接近零损耗的障碍,并保持了视觉Transformer在ImageNet上的高精度。第二篇论文研究了循环Transformer中的残差缩放,提出了一种新的缩放因子,该因子提高了可训练性,并允许在不同有效深度之间直接进行超参数迁移,无需重新调整。 AI
影响 这些论文介绍了用于大型Transformer模型更有效的合并和改进稳定性的方法,可能带来更强大、更易于训练的AI系统。
排序理由 两篇在arXiv上发表的学术论文,详细介绍了Transformer架构的新颖技术。
- alphaXiv
- arXiv
- CatalyzeX
- DagsHub
- Hugging Face
- IArxiv
- Looped Transformers
- transformers
- Billion Parameter Pretrained Transformers
- ImageNet
- linear mode connectivity
- Vision Transformer Large
- wikitext
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →