English(EN) $\mu$pscaling small models: Principled warm starts and hyperparameter transfer

新研究详细介绍了扩展神经网络模型的原则性方法

作者 PulseAugur 编辑部 · [1 个来源] · 2026-07-03 04:00

一篇新研究论文提出了一种有效扩展神经网络模型的方法，允许从已训练好的小型模型初始化大型模型。该方法受 $\mu$P 和无限宽度架构的启发，使用理论上可靠的、与宽度相关的扰动噪声和优化器超参数缩放。该方法旨在通过减少对扩展版本进行昂贵超参数调优的需求来加速大型模型的收敛，并在实际数据集和架构上证明了其有效性。 AI

影响这项研究可能通过降低与超参数调优相关的计算成本，从而实现更高效的大型人工智能模型训练。

排序理由研究论文发布在arXiv上，详细介绍了神经网络扩展的新方法。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv stat.ML 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv stat.ML TIER_1 English(EN) · Yuxin Ma, Nan Chen, Mateo D\'iaz, Soufiane Hayou, Dmitriy Kunisky, Soledad Villar · 2026-07-03 04:00

$\mu$pscaling small models: Principled warm starts and hyperparameter transfer

arXiv:2602.10545v2 Announce Type: replace-cross Abstract: Modern large-scale neural networks are often trained and released in multiple sizes to accommodate diverse inference budgets. To improve efficiency, recent work has explored model upscaling: initializing larger models from…

报道来源 [1]

$\mu$pscaling small models: Principled warm starts and hyperparameter transfer

相关实体

相关话题