PulseAugur
实时 21:14:10

新的GRAIN算法解决了大型AI模型中的学习不稳定性问题

研究人员推出了一种新颖的训练算法GRAIN,旨在解决大型、过参数化深度学习模型中的学习不稳定性问题。GRAIN用组梯度(group-wise gradients)的最小范数凸组合(min-norm convex combination)取代了标准的梯度均值聚合(mean aggregation)。这种方法保证了聚合更新与每个组梯度之间的非负内积,有效解决了批内(intra-batch)和批间(inner-batch)梯度冲突。在各种任务和模型规模上的实证结果表明,GRAIN能够在不增加额外训练时间或存储成本的情况下,持续提高平均性能并降低运行间的方差。 AI

影响 这项新的训练算法有望实现更稳定、更可靠的大型AI模型微调,降低重复训练的成本和变异性。

排序理由 该集群包含一篇详细介绍机器学习新算法的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv stat.ML 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新的GRAIN算法解决了大型AI模型中的学习不稳定性问题

报道来源 [1]

  1. arXiv stat.ML TIER_1 English(EN) · Lijing Wang ·

    GRAIN: Group Aggregation via Min-Norm Objective

    Learning instability is a long-standing problem across machine learning, but it is especially acute in the overparameterized regime that defines modern deep learning: large models fine-tuned or trained on limited data traverse flat loss landscapes with many nearly-equivalent mini…