English(EN) Adaptive Momentum and Nonlinear Damping for Neural Network Training

新的优化方法自适应动量以加速神经网络训练

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-29 04:00

研究人员开发了一种新的神经网络优化方法，该方法根据每个参数的动能来调整动量系数。这种方法借鉴了连续时间动力学和结构动力学的立方阻尼，旨在与Adam等标准方法相比，提高稳定性和收敛速度。所提出的方案在涉及 Vision Transformers (ViT)、BERT 和 GPT-2 的任务上，已证明具有稳健性，并且性能与Adam相当或更优，理论结果支持其指数收敛。 AI

影响引入了一种新颖的优化技术，可以提高各种大型语言和视觉模型的训练效率和性能。

排序理由详细介绍一种新的神经网络优化技术的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Aikaterini Karoni, Rajit Rajpal, Benedict Leimkuhler, Gabriel Stoltz · 2026-06-29 04:00

Adaptive Momentum and Nonlinear Damping for Neural Network Training

arXiv:2602.00334v2 Announce Type: replace Abstract: Momentum Stochastic Gradient Descent (mSGD) relies on a fixed momentum coefficient shared across all parameters, failing to account for the heterogeneous structure of modern loss landscapes. In this work, we adopt a continuous-t…

报道来源 [1]

Adaptive Momentum and Nonlinear Damping for Neural Network Training

相关实体

相关话题