一篇新论文挑战了随机梯度下降(SGD)噪声表现得像布朗运动的普遍假设。研究人员提出了一个替代模型,其中SGD动力学发生在由小批量采样引起的波动的损失景观中。该框架揭示了SGD在临界点附近的独特行为,特别是表明方差可能在接近平坦的方向上随时间增长,表明有效的扩散。 AI
影响 挑战了AI训练动力学中的一个基本假设,可能导致更细致的优化策略和对模型收敛的更好理解。
排序理由 该集群包含一篇学术论文,详细介绍了关于随机梯度下降动力学的新理论见解和经验证据。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →