新研究探索合并大型Transformer模型和提高循环模型稳定性

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-18 04:00

两篇新研究论文探索了增强大型Transformer模型能力和稳定性的新颖技术。第一篇论文介绍了一个可扩展的线性模式连接（LMC）框架，该框架允许合并数十亿参数的预训练Transformer，在WikiText上展示了接近零损耗的障碍，并保持了视觉Transformer在ImageNet上的高精度。第二篇论文研究了循环Transformer中的残差缩放，提出了一种新的缩放因子，该因子提高了可训练性，并允许在不同有效深度之间直接进行超参数迁移，无需重新调整。 AI

影响这些论文介绍了用于大型Transformer模型更有效的合并和改进稳定性的方法，可能带来更强大、更易于训练的AI系统。

排序理由两篇在arXiv上发表的学术论文，详细介绍了Transformer架构的新颖技术。

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Shaowen Wang, Bingrui Li, Ge Zhang, Wenhao Huang, Shen Yan, Jian Li · 2026-06-18 04:00

关于循环 Transformer 的残差缩放：稳定性和可迁移性

arXiv:2606.18524v1 Announce Type: new Abstract: Looped (weight-tied) Transformers apply a shared residual block $N$ times ($h \leftarrow h + \varepsilon\,f(h)$, same $f$ at each step), increasing effective depth without adding parameters. Prior depth-scaling analyses prescribe $\…

报道来源 [1]

关于循环 Transformer 的残差缩放：稳定性和可迁移性

相关实体

相关话题