研究人员推出了一种新颖的训练算法GRAIN,旨在解决大型、过参数化深度学习模型中的学习不稳定性问题。GRAIN用组梯度(group-wise gradients)的最小范数凸组合(min-norm convex combination)取代了标准的梯度均值聚合(mean aggregation)。这种方法保证了聚合更新与每个组梯度之间的非负内积,有效解决了批内(intra-batch)和批间(inner-batch)梯度冲突。在各种任务和模型规模上的实证结果表明,GRAIN能够在不增加额外训练时间或存储成本的情况下,持续提高平均性能并降低运行间的方差。 AI
影响 这项新的训练算法有望实现更稳定、更可靠的大型AI模型微调,降低重复训练的成本和变异性。
排序理由 该集群包含一篇详细介绍机器学习新算法的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →