English(EN) Convergence of Gradient Descent for General Neural Network Architectures Beyond the NTK Regime

新框架分析神经网络中梯度下降的收敛性

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-22 14:00

研究人员开发了一个新框架来分析神经网络中梯度下降的收敛性，该框架超越了传统的神经切线核（NTK）理论。该框架适用于广泛的架构，包括预归一化的多层Transformer，并证明在温和的假设和特定的初始化下，梯度下降可以收敛到一个稳定点。该分析沿梯度下降轨迹建立了Lipschitz平滑性，并揭示学习率缩放取决于网络深度和瓶颈维度而非宽度，这对残差连接和函数组合具有影响。 AI

影响为理解和潜在改进复杂神经网络架构的训练提供了理论基础。

排序理由该集群包含一篇学术论文，详细介绍了分析神经网络训练动态的新理论框架。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Yuqing Wang · 2026-06-22 14:00

超越NTK理论域的通用神经网络架构的梯度下降收敛性

Training dynamics is central to understanding neural networks, yet its theoretical analysis remains difficult even for simple architectures and becomes substantially more challenging for general modern architectures. In this paper, we propose a convergence framework for analyzing…

报道来源 [1]

超越NTK理论域的通用神经网络架构的梯度下降收敛性

相关实体

相关话题