stochastic gradient descent

贝叶斯教师提升AI模型蒸馏的准确性和稳定性

一篇新的研究论文通过贝叶斯视角探讨了知识蒸馏（KD），并分析了学生模型在随机梯度下降（SGD）下的收敛性。研究表明，与确定性教师相比，使用贝叶斯深度学习模型作为教师可以将准确率提高高达4.27%，并将收敛噪声降低高达30%。这些发现表明，贝叶斯教师能提供更好的贝叶斯类别概率（BCPs）估计，从而增强学生模型的泛化能力和稳定性。

RESEARCH · CL_131348 · Jul 7 · 11:25

新EISAM优化器增强深度学习泛化能力

研究人员推出了一种名为“受外梯度启发的锐度感知最小化”（EISAM）的新型优化器，旨在提高深度学习的泛化能力。EISAM采用两步过程，包括预测和扰动步骤，以导航损失景观并找到更平坦的最小值。该方法旨在减少过拟合并提高在未见数据上的性能，其表现优于SGD和Adam等传统优化器以及标准的SAM。EISAM还显示出对扰动半径的敏感性降低，从而简化了调整并提高了跨各种架构和数据集的鲁棒性。

TOOL · CL_129327 · Jul 7 · 04:00

新的自适应Adam优化器提高了深度学习求解偏微分方程的收敛性

一篇新论文介绍了一种学习率自适应的Adam优化器变体，旨在提高深度学习的收敛性，特别是在求解偏微分方程方面。所提出的方法根据目标函数的经验估计来调整学习率，旨在克服标准Adam和具有恒定学习率的SGD的局限性。数值模拟表明，与默认的Adam优化器相比，目标函数值减少得更快，并且理论分析为某些自适应SGD变体收敛到全局最小值的严格证明提供了依据。

TOOL · CL_129294 · Jul 7 · 04:00

新的热力学框架将神经网络训练建模为理想气体行为

研究人员开发了一个热力学框架，用于分析使用随机梯度下降（SGD）训练的尺度不变神经网络的训练动力学。该框架将学习率和权重衰减等训练超参数与温度和压力等热力学变量进行了类比。研究发现 SGD 动力学与理想气体的行为之间存在很强的相关性，这得到了理论分析和模拟的支持。这种方法为理解神经网络训练提供了新的视角，并可能为未来的超参数优化和学习率调度方法提供信息。

TOOL · CL_128604 · Jul 7 · 04:00

新研究保证了 SGD 训练的物理信息神经网络的收敛性

研究人员已经证明，在求解泊松方程时，随机梯度下降（SGD）训练过参数化两层物理信息神经网络（PINNs）的线性收敛性。该分析考虑了随机优化方法引入的动态随机性，为 SGD 训练的 PINNs 提供了收敛保证，扩展了先前的工作。该分析的关键在于确保训练过程中特定 Gram 矩阵的正定性。

RESEARCH · CL_128356 · Jul 6 · 08:07

新研究详解基于分数的生成模型SGD收敛性

研究人员发表了一篇论文，详细介绍了随机梯度下降（SGD）应用于基于分数的生成模型（SGMs）时的非渐近收敛性。该研究为训练SGMs的SGD提供了理论保证，解决了优化动力学问题，而这方面的研究比其采样过程的研究要少。该工作为一般分数参数化建立了收敛率，并使用神经切线核分析了过参数化网络，为实际中的权重选择提供了指导。

RESEARCH · CL_124118 · Jul 3 · 14:36

LoRA技术赋能大型AI模型高效微调

多篇文章讨论了大型语言模型的微调，特别关注LoRA（低秩适配）技术。LoRA通过仅训练一小部分参数来实现大型模型的有效适配，使其在性能较低的硬件上也能实现。该方法与需要大量计算资源的全量微调形成对比。文章还涉及了Adam等优化算法，这对于这些大型模型的实际训练至关重要，并探讨了机器学习模型的更广泛发展历程。

TOOL · CL_119656 · Jul 1 · 04:00

容量假说解释：更大的数据集会减弱梯度学习的优势

研究人员重新审视了“容量假说”，以解释为什么具有过量参数的深度神经网络能够很好地泛化。该假说认为，在低训练损失区域内，更大的权重空间区域能够带来更好的泛化能力，使得随机梯度下降（SGD）更有可能找到这些最优配置。使用下棋交换 Wang-Landau 算法的新实验表明，随着训练数据集大小的增加，梯度学习相对于随机采样的优势会减弱，这可能解决了先前研究结果的冲突。

RESEARCH · CL_119700 · Jun 30 · 17:38

已证明随机重排在优化中优于SGD

研究人员已从理论上证明，在光滑凸优化中，随机重排（RR）优于标准的随机梯度下降（SGD）。此前，尽管RR取得了经验上的成功，但由于理论上的限制限制了其步长和收敛速度，它一直被认为是一种启发式方法。这项新工作确立了在任何合理的步长和任何有限的训练周期后，RR都优于SGD，从而解决了该领域一个长期存在的悬而未决的问题。

TOOL · CL_117921 · Jun 30 · 04:00

新型分数随机神经网络改进长记忆恢复和鲁棒性

研究人员推出了一种新颖的架构——分数随机神经网络（FSNNs），该架构将分数布朗运动纳入驱动残差动力学。该方法利用离散随机最大值原理建立伴随递归，从而在确定性网络参数下证明了投影样本随机梯度下降的均方收敛性。FSNNs 在多种应用中展现出潜力，包括具有不确定性量化的噪声回归、长记忆时间序列生成以及结构化扰动下的图像分类，与传统的布朗运动和确定性基线相比，在长记忆恢复和鲁棒性方面有所提高。

TOOL · CL_117875 · Jun 30 · 04:00

循环神经网络：抗崩溃动力学实现多时间尺度学习

一篇新的研究论文探讨了使用随机梯度下降训练的循环神经网络（RNN）中长期学习的挑战。该研究确定了状态动力学和参数动力学之间的竞争，这种竞争会导致快速遗忘的崩溃状态或缓慢的幂律遗忘的扩展的抗崩溃状态。这种对学习长期依赖至关重要的扩展状态，是由学习动力学中的重尾波动维持的，这些波动起到了机制的作用，而不是需要抑制的噪声。

TOOL · CL_117407 · Jun 30 · 04:00

新的暖启动策略加速高斯过程推理

研究人员开发了新的暖启动策略来加速高斯过程（GP）推理，这是主动学习和贝叶斯优化等任务的关键组成部分。这些方法利用来自较小线性系统的解，在用新数据更新 GP 后验时显著加快收敛速度。理论分析和经验结果表明，这些暖启动技术可以实现高达 19 倍的速度提升，并产生更准确的后验估计，从而提高优化性能。

RESEARCH · CL_119685 · Jun 29 · 21:32

新研究详解SGD在学习率稳定性边缘的自稳定

一篇题为“SGD at the Edge of Stability: Stochastic Stabilization with Large Learning Rates”的新研究论文，探讨了随机梯度下降（SGD）在深度学习中的行为。该研究为SGD应用于多类交叉熵损失函数在线性分类器和两层神经网络时提供了理论收敛保证。研究表明，虽然SGD的随机性可能导致其在不稳定和稳定状态之间振荡，但该算法能够内在地实现自稳定，即使在较大的学习率下也能确保收敛。

RESEARCH · CL_117186 · Jun 28 · 20:27

AI模型解决了最古老随机梯度下降算法的复杂性问题

最近发表在arXiv上的一篇论文详细介绍了现代AI模型（特别是ChatGPT和Gemini）如何帮助解决了一个长期存在的数学问题。该研究聚焦于Kaczmarz算法，这是一种求解线性方程的早期方法，现已被确定为随机梯度下降（SGD）的前身。AI的计算能力被用来确定这一基础算法的最坏情况复杂性。

TOOL · CL_111626 · Jun 26 · 04:00

新的HybridSGD方法优化分布式内存AI训练

研究人员开发了HybridSGD，一种新颖的二维并行随机梯度下降法，旨在优化分布式内存系统的性能。这种新方法在现有的1D方法（如s-step SGD和Federated SGD with Averaging (FedAvg)）之间提供了连续的权衡。理论分析证实了HybridSGD在收敛性、计算、通信和内存使用方面的优势。在Cray EX超级计算系统上的实证评估表明，在应用于二元分类任务时，HybridSGD比FedAvg具有更好的收敛…

TOOL · CL_98006 · Jun 18 · 04:00

新理论将激波动力学与神经网络训练联系起来

研究人员在激波理论与人工神经网络中随机梯度下降的学习动力学之间建立了一个数学联系。通过应用微分几何、李群理论和流体力学原理，他们证明了这些网络的有效动力学可以用商流形上的粘性Hamilton--Jacobi方程来描述。此外，粗粒化损失函数的梯度遵循一个Burgers型方程，表明激波的形成是严格可能的。该框架已应用于多层感知机、卷积神经网络、Transformer和均值场网络等各种架构，暗示了深度学习中新诊断方法的潜力。

TOOL · CL_96921 · Jun 17 · 13:58

机器学习在医疗保健中的课程大纲详解

本文档概述了医疗保健机器学习课程的全面教学大纲。它涵盖了基本概念，如机器学习和深度学习的区别，各种神经网络架构，包括单层感知器和多层感知器，以及诸如批量梯度下降、SGD 和 Adam 等优化算法。该材料还深入探讨了深度学习的具体内容，如激活函数、反向传播、正则化技术和卷积神经网络 (CNN)，特别关注它们在医学成像中的应用，使用 MRI 和 CT 等成像方式。此外，课程还讨论了医学人工智能的关键方面，包括数据集准备、处理类别不平衡、交…

RESEARCH · CL_95930 · Jun 17 · 04:00

神经网络中的Dropout与渗流理论相关联

一篇新的研究论文探讨了在采用Dropout正则化的神经网络中渗流的概念。该研究提交至arXiv，提出Dropout训练期间连接的随机移除模仿了统计物理学中的渗流模型。研究人员Jaron Sanders和G. Hinton研究了这一现象如何在没有偏置的网络中导致训练中断，并提出该问题也可能延伸到有偏置的网络。

RESEARCH · CL_95803 · Jun 15 · 23:43

新理论：SA-Adam 自适应性渐近不可见

研究人员发表了一篇论文，详细介绍了对自适应优化算法的理论分析，特别关注了带有动量和非收敛自适应预处理的 SA-Adam。该研究证明了在这种配置下存在一个非自治的 Polyak-Ruppert 中心极限定理，表明在迭代边际协方差方面，优化器的自适应性是渐近不可见的。这一发现表明，在某些条件下，特别是当动量增益亚线性衰减时，优化器的协方差结构会反映出普通随机梯度下降 (SGD) 的结构。

RESEARCH · CL_90893 · Jun 11 · 20:38

新的优化技术出现，可实现更快、更高效的 AI 模型训练 · 跟踪 8 个来源

几篇最新的 arXiv 论文探讨了机器学习优化技术的进展。研究人员提出了新的方法，如权重自适应 ASNG (WA-ASNG) 以提高进化算法的并行性能，以及通过子空间获取函数实现的可扩展批量贝叶斯优化，以提高大批量处理的效率。其他工作引入了 MGUP，一种用于随机优化的动量梯度对齐更新策略，以及 OptEMA，一种用于无噪声最优化的自适应指数移动平均。此外，Gefen 等新的优化器旨在减少内存占用同时保持性能，理论分析也为随机梯度下降…