PulseAugur
实时 21:42:30

新研究探索合并大型Transformer模型和提高循环模型稳定性

两篇新研究论文探索了增强大型Transformer模型能力和稳定性的新颖技术。第一篇论文介绍了一个可扩展的线性模式连接(LMC)框架,该框架允许合并数十亿参数的预训练Transformer,在WikiText上展示了接近零损耗的障碍,并保持了视觉Transformer在ImageNet上的高精度。第二篇论文研究了循环Transformer中的残差缩放,提出了一种新的缩放因子,该因子提高了可训练性,并允许在不同有效深度之间直接进行超参数迁移,无需重新调整。 AI

影响 这些论文介绍了用于大型Transformer模型更有效的合并和改进稳定性的方法,可能带来更强大、更易于训练的AI系统。

排序理由 两篇在arXiv上发表的学术论文,详细介绍了Transformer架构的新颖技术。

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新研究探索合并大型Transformer模型和提高循环模型稳定性

报道来源 [1]

  1. arXiv cs.LG TIER_1 English(EN) · Shaowen Wang, Bingrui Li, Ge Zhang, Wenhao Huang, Shen Yan, Jian Li ·

    关于循环 Transformer 的残差缩放:稳定性和可迁移性

    arXiv:2606.18524v1 Announce Type: new Abstract: Looped (weight-tied) Transformers apply a shared residual block $N$ times ($h \leftarrow h + \varepsilon\,f(h)$, same $f$ at each step), increasing effective depth without adding parameters. Prior depth-scaling analyses prescribe $\…