实体 Qifan Yu

Qifan Yu

PulseAugur coverage of Qifan Yu — every cluster mentioning Qifan Yu across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_117827 · Jun 30 · 04:00

SPARKLING框架提升神经网络训练效率

研究人员开发了SPARKLING，一个旨在通过宽度渐进式学习提高大型神经网络训练效率的新框架。该方法解决了中期宽度扩展可能导致训练不稳定的挑战。SPARKLING采用RMS尺度一致性来保持信号，并使用非对称技术来打破对称性，从而实现更稳定的激活统计和更多样化的特征。实验表明，SPARKLING可以将宽度加倍模型的训练成本降低高达35%，优于从头开始训练。