PulseAugur
实时 12:57:38
English(EN) Adaptive Momentum and Nonlinear Damping for Neural Network Training

新的优化方法自适应动量以加速神经网络训练

研究人员开发了一种新的神经网络优化方法,该方法根据每个参数的动能来调整动量系数。这种方法借鉴了连续时间动力学和结构动力学的立方阻尼,旨在与Adam等标准方法相比,提高稳定性和收敛速度。所提出的方案在涉及 Vision Transformers (ViT)、BERT 和 GPT-2 的任务上,已证明具有稳健性,并且性能与Adam相当或更优,理论结果支持其指数收敛。 AI

影响 引入了一种新颖的优化技术,可以提高各种大型语言和视觉模型的训练效率和性能。

排序理由 详细介绍一种新的神经网络优化技术的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新的优化方法自适应动量以加速神经网络训练

报道来源 [1]

  1. arXiv cs.LG TIER_1 English(EN) · Aikaterini Karoni, Rajit Rajpal, Benedict Leimkuhler, Gabriel Stoltz ·

    Adaptive Momentum and Nonlinear Damping for Neural Network Training

    arXiv:2602.00334v2 Announce Type: replace Abstract: Momentum Stochastic Gradient Descent (mSGD) relies on a fixed momentum coefficient shared across all parameters, failing to account for the heterogeneous structure of modern loss landscapes. In this work, we adopt a continuous-t…