研究人员开发了一个新框架来分析神经网络中梯度下降的收敛性,该框架超越了传统的神经切线核(NTK)理论。该框架适用于广泛的架构,包括预归一化的多层Transformer,并证明在温和的假设和特定的初始化下,梯度下降可以收敛到一个稳定点。该分析沿梯度下降轨迹建立了Lipschitz平滑性,并揭示学习率缩放取决于网络深度和瓶颈维度而非宽度,这对残差连接和函数组合具有影响。 AI
影响 为理解和潜在改进复杂神经网络架构的训练提供了理论基础。
排序理由 该集群包含一篇学术论文,详细介绍了分析神经网络训练动态的新理论框架。[lever_c_demoted from research: ic=1 ai=1.0]
- gradient descent
- multi-layer transformers
- Neural tangent kernel
- Residual Connections
- Xavier initialization
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →