研究人员调查了梯度下降(GD)和随机梯度下降(SGD)优化算法中非线性动力学的稳定性,超越了简化的二次势能假设。该研究推导出了GD在最小值附近稳定振荡的精确判据,该判据依赖于高阶导数并推广了现有发现。对于SGD,研究表明非线性动力学可能由于单个不稳定的批次而导致期望发散,这与表明平均效应的线性分析形成对比。该论文还证明,如果所有批次都线性稳定,则SGD的非线性动力学在期望上保持稳定。 AI
影响 为理解对训练大型AI模型至关重要的优化算法提供了更深入的理论认识。
排序理由 学术论文发布在arXiv上。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →