一篇新研究论文探讨了在最大更新参数化($\mu$P)下,宽两层神经网络中的特征学习。该研究建立了四个关键的结构性结果,包括带噪声梯度下降的均值场极限的全局存在性和唯一性。它还表征了该极限的可识别性,并证明在特定条件下,长时极限测度的活动支撑集允许稀疏字典分解。该研究进一步将总特征学习误差分解为几个组成部分,对学习过程进行了详细分析。 AI
影响 这项研究为宽神经网络的特征学习能力提供了理论见解,可能为未来的模型架构和训练方法提供信息。
排序理由 该集群包含一篇详细介绍机器学习理论研究的学术论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →