English(EN) SPARKLING: Balancing Signal Preservation and Symmetry Breaking for Width-Progressive Learning

SPARKLING框架提升神经网络训练效率

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-30 04:00

研究人员开发了SPARKLING，一个旨在通过宽度渐进式学习提高大型神经网络训练效率的新框架。该方法解决了中期宽度扩展可能导致训练不稳定的挑战。SPARKLING采用RMS尺度一致性来保持信号，并使用非对称技术来打破对称性，从而实现更稳定的激活统计和更多样化的特征。实验表明，SPARKLING可以将宽度加倍模型的训练成本降低高达35%，优于从头开始训练。 AI

影响这项研究可能导致更高效的大型AI模型训练，降低计算成本并加速开发。

排序理由详细介绍模型训练新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

Qifan Yu

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Qifan Yu, Xinyu Ma, Zhijian Zhuo, Minrui Wang, Deyi Liu, Shiyi Zhan, Yiyuan Ma, Liang Xiang, Xingyan Bin, Di He · 2026-06-30 04:00

SPARKLING: Balancing Signal Preservation and Symmetry Breaking for Width-Progressive Learning

arXiv:2602.02472v2 Announce Type: replace-cross Abstract: Progressive Learning (PL) reduces pre-training computational overhead by gradually increasing model scale. While prior work has extensively explored depth expansion, width expansion remains significantly understudied, with…

报道来源 [1]

SPARKLING: Balancing Signal Preservation and Symmetry Breaking for Width-Progressive Learning

相关话题