研究人员开发了一种新的神经网络优化方法,该方法根据每个参数的动能来调整动量系数。这种方法借鉴了连续时间动力学和结构动力学的立方阻尼,旨在与Adam等标准方法相比,提高稳定性和收敛速度。所提出的方案在涉及 Vision Transformers (ViT)、BERT 和 GPT-2 的任务上,已证明具有稳健性,并且性能与Adam相当或更优,理论结果支持其指数收敛。 AI
影响 引入了一种新颖的优化技术,可以提高各种大型语言和视觉模型的训练效率和性能。
排序理由 详细介绍一种新的神经网络优化技术的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →