English(EN) Scaling Probabilistic Transformer via Efficient Cross-Scale Hyperparameter Transfer

概率Transformer扩展至0.4B参数，性能优于标准模型

作者 PulseAugur 编辑部 · [2 个来源] · 2026-04-28 09:22

研究人员开发了一种方法，通过使用最大更新参数化（muP）将超参数从较小模型迁移到较大模型来扩展概率Transformer（PT）。该技术解决了PT对超参数选择的敏感性问题，使其能够高效地扩展到拥有多达0.4亿参数的模型。实验表明，在参数数量相同的情况下，这些扩展后的PT在掩码语言建模任务上的表现优于标准Transformer。 AI

影响能够在大规模下更有效地部署概率模型，可能提高语言建模任务的性能。

排序理由学术论文，详细介绍了一种扩展概率模型的新方法。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.CL TIER_1 English(EN) · Penghao Kuang, Haoyi Wu, Kewei Tu · 2026-04-29 04:00

通过高效跨尺度超参数迁移实现概率Transformer的扩展

arXiv:2604.25409v1 Announce Type: new Abstract: Probabilistic Transformer (PT), a white-box probabilistic model for contextual word representation, has demonstrated substantial similarity to standard Transformers in both computational structure and downstream task performance on …
arXiv cs.CL TIER_1 English(EN) · Kewei Tu · 2026-04-28 09:22

通过高效跨尺度超参数迁移实现概率Transformer的扩展

Probabilistic Transformer (PT), a white-box probabilistic model for contextual word representation, has demonstrated substantial similarity to standard Transformers in both computational structure and downstream task performance on small models and small to medium sized datasets.…

报道来源 [2]

通过高效跨尺度超参数迁移实现概率Transformer的扩展

通过高效跨尺度超参数迁移实现概率Transformer的扩展

相关实体

相关话题