新的GRAIN算法解决了大型AI模型中的学习不稳定性问题

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-22 06:57

研究人员推出了一种新颖的训练算法GRAIN，旨在解决大型、过参数化深度学习模型中的学习不稳定性问题。GRAIN用组梯度（group-wise gradients）的最小范数凸组合（min-norm convex combination）取代了标准的梯度均值聚合（mean aggregation）。这种方法保证了聚合更新与每个组梯度之间的非负内积，有效解决了批内（intra-batch）和批间（inner-batch）梯度冲突。在各种任务和模型规模上的实证结果表明，GRAIN能够在不增加额外训练时间或存储成本的情况下，持续提高平均性能并降低运行间的方差。 AI

影响这项新的训练算法有望实现更稳定、更可靠的大型AI模型微调，降低重复训练的成本和变异性。

排序理由该集群包含一篇详细介绍机器学习新算法的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv stat.ML 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv stat.ML TIER_1 English(EN) · Lijing Wang · 2026-06-22 06:57

GRAIN: Group Aggregation via Min-Norm Objective

Learning instability is a long-standing problem across machine learning, but it is especially acute in the overparameterized regime that defines modern deep learning: large models fine-tuned or trained on limited data traverse flat loss landscapes with many nearly-equivalent mini…

报道来源 [1]

GRAIN: Group Aggregation via Min-Norm Objective

相关实体

相关话题