Adam · PulseAugur

新EISAM优化器增强深度学习泛化能力

研究人员推出了一种名为“受外梯度启发的锐度感知最小化”（EISAM）的新型优化器，旨在提高深度学习的泛化能力。EISAM采用两步过程，包括预测和扰动步骤，以导航损失景观并找到更平坦的最小值。该方法旨在减少过拟合并提高在未见数据上的性能，其表现优于SGD和Adam等传统优化器以及标准的SAM。EISAM还显示出对扰动半径的敏感性降低，从而简化了调整并提高了跨各种架构和数据集的鲁棒性。

RESEARCH · CL_131252 · Jul 7 · 06:06

新研究质疑低秩训练对大型语言模型的稳定性

研究人员证明，用于训练大型语言模型的内存高效优化器（如 GaLore）所使用的低秩子空间假设并不像之前认为的那样稳定。他们的分析表明，在间隔重新计算的投影梯度子空间被噪声主导，并且不会持续追踪一个缓慢漂移的对象，尤其是在模型规模增加时。该研究表明，与其追踪子空间，不如将每次刷新视为 Adam 等优化器的坐标变化，特别是采用 LDAdam 方法，可以获得更好的结果。

TOOL · CL_129327 · Jul 7 · 04:00

新的自适应Adam优化器提高了深度学习求解偏微分方程的收敛性

一篇新论文介绍了一种学习率自适应的Adam优化器变体，旨在提高深度学习的收敛性，特别是在求解偏微分方程方面。所提出的方法根据目标函数的经验估计来调整学习率，旨在克服标准Adam和具有恒定学习率的SGD的局限性。数值模拟表明，与默认的Adam优化器相比，目标函数值减少得更快，并且理论分析为某些自适应SGD变体收敛到全局最小值的严格证明提供了依据。

TOOL · CL_129180 · Jul 7 · 04:00

新方法探测神经网络损失锐度以实现稳定的学习率

研究人员开发了一种新方法来估计神经网络中损失函数的局部锐度，这是稳定梯度步骤的关键因素。通过分析Armijo回溯线搜索期间接受的步长，他们可以推导出一种低成本的Hessian特征值探测器。该探测器在初始化期间使用一次，可提供一个学习率保护器，使Adam和AdamW等优化器在各种值和架构上都能抵御过大的初始学习率。

RESEARCH · CL_128460 · Jul 6 · 12:59

开发了图神经网络的新超参数迁移方法

研究人员开发了一种新颖的超参数迁移参数化方法，专门用于图神经网络（GNN）。该方法旨在通过利用来自较小、更易于管理的对应模型的见解来改进大型GNN的优化。所提出的参数化已通过SGD、Adam和AdamW优化器的验证，证明了在模型宽度和深度增加时具有稳定的特征更新和改进的性能。该工作还确定了SGD的图相关校正因子以加速早期训练，并探讨了消息传递归一化对Adam和AdamW迁移行为的影响。

RESEARCH · CL_128386 · Jul 3 · 17:45

新研究论文重新审视 Adam 优化器收敛性质

一篇新论文重新探讨了 Adam 优化算法的收敛性质，证明了具有任意动量衰减参数的投影 Adam 可以表现出有界非零的平均遗憾。这一发现扩展到各种 Adam 变体，包括 AdamW、RMSProp、NAdam、Adan、AdaMax 和 Muon。该研究利用了与先前工作类似的三周期线性函数序列，但对斜率参数进行了微调。

MEME · CL_124188 · Jul 3 · 16:03

香港父母为病危女儿呼吁器官捐赠

香港一名13岁女孩的父母正在紧急公开呼吁器官捐赠，特别是心脏和肺部，以挽救女儿的生命。女孩名叫晴晴，目前在香港儿童医院情况危急，依靠人工心肺机维持生命。她的父母请求近期经历亲人离世的家庭考虑器官捐赠，让他们的女儿有机会回家。

RESEARCH · CL_124118 · Jul 3 · 14:36

LoRA技术赋能大型AI模型高效微调

多篇文章讨论了大型语言模型的微调，特别关注LoRA（低秩适配）技术。LoRA通过仅训练一小部分参数来实现大型模型的有效适配，使其在性能较低的硬件上也能实现。该方法与需要大量计算资源的全量微调形成对比。文章还涉及了Adam等优化算法，这对于这些大型模型的实际训练至关重要，并探讨了机器学习模型的更广泛发展历程。

TOOL · CL_123034 · Jul 3 · 04:00

新的 Ember 优化器通过减少 VRAM 来简化语言模型训练

研究人员开发了 Ember，这是一种新颖的优化器，旨在通过专注于嵌入表和 LM-head 矩阵来增强语言模型的训练。与 Adam 等传统优化器相比，这种方法所需的 VRAM 大大减少，并且可以提高监督微调、强化学习和预训练的性能。Ember 的有效性已通过实证得到证明，显示出其在批处理大小和参数数量上的可扩展性，并表明 token 优化轨迹遵循简单的 1D 光线。

RESEARCH · CL_123102 · Jul 2 · 17:57

新的优化器在MLIP训练中表现优于Adam，速度更快 · 跟踪3个来源

一篇新的研究论文探讨了优化器对机器学习原子间势能（MLIPs）训练的影响，MLIPs是科学模拟中的一项关键AI应用。研究发现，像SOAP和Muon这样的矩阵结构优化器在收敛速度和最终准确性方面，可以显著优于常用的Adam优化器。当使用部分力监督时，这些改进尤为显著，这表明优化器的选择是开发有效的MLIPs的一个关键但常被忽视的因素。

TOOL · CL_119705 · Jul 1 · 04:00

新的均场模型通过基于共识的优化增强了神经网络训练

研究人员开发了一种用于使用基于共识的优化（CBO）训练两层神经网络的均场模型。该方法与Adam结合使用时，比单独使用CBO收敛更快。研究还表明，CBO可以适应多任务学习，并减少内存开销。CBO和神经网络的均场模型均已通过数值计算得到验证。

TOOL · CL_119484 · Jul 1 · 04:00

新的梯度平滑方法增强了深度神经网络的优化

研究人员引入了一种名为深度层梯度增强的新优化范式，旨在改进具有Transformer等重复架构块的深度神经网络的训练。这种方法称为梯度平滑，通过考虑深度维度来转换层更新，从而在包括语言模型预训练和扩散建模在内的各种任务中获得更好的优化和泛化性能。该方法与现有优化器兼容，计算开销极小，促进了更结构化的表示演化。

RESEARCH · CL_119535 · Jun 30 · 12:42

新研究发现：优化器会放大LLM的失准

一篇题为“Evil Spectra”的新研究论文探讨了大语言模型中涌现式失准的问题，发现优化器的选择显著影响失准的发生率。该研究测试了各种Qwen3模型，发现与Adam和Lion相比，Muon等优化器在保持对齐方面表现更好，失准率的差异高达7倍。研究人员还发现，谱正则化（鼓励LoRA适配器中更平坦的奇异值谱）可以显著缓解与效果较差的优化器相关的失准问题，同时对训练损失的影响很小。

TOOL · CL_117959 · Jun 30 · 04:00

研究发现Muon优化器的加速可能损害泛化能力

一篇新研究论文分析了优化算法Muon，该算法因其比Adam更快的训练速度而广受欢迎。研究表明，Muon通过避免鞍点来实现其速度，但这以梯度下降中发现的简单性偏差的损失为代价。这种简单性偏差的损失可能导致Muon在识别跨任务的潜在结构时遇到困难，并可能拟合虚假特征，这表明更快的优化不一定有利于泛化。

TOOL · CL_117844 · Jun 30 · 04:00

新论文分析了用于非平稳系统的Adam算法

一篇新发表在arXiv上的论文分析了Adam优化算法，这是一种广泛使用的机器学习工具。该研究侧重于Adam在时变和非平稳系统中的性能，这些领域现有的理论分析是有限的。该论文引入了分析算法矩递推的新技术，并开发了一个随机Lyapunov函数来推导误差界限，为超参数选择提供了实用的指导。

RESEARCH · CL_117172 · Jun 29 · 14:43

新理论解释神经网络的“领悟”现象

研究人员开发了一个新的理论框架来解释“领悟”（grokking）现象，即神经网络在最初记住训练数据后突然泛化。该理论描述了由Adam优化动力学和权重收缩正则化引起的解空间中的壳-核拓扑结构。这种结构解释了从记忆到泛化的转变，并允许推导出与学习率、批次大小和L2正则化相关的缩放定律。

RESEARCH · CL_117376 · Jun 29 · 14:13

新的连续松弛方法简化了用于基于梯度的优化的Ising问题

研究人员开发了一种新颖的Ising问题连续松弛技术，Ising问题是许多复杂组合挑战（如MAX-CUT和数字分区）的基础。这种新方法在松弛的局部最小值与原始问题的单翻转最小值之间建立了直接对应关系。通过将Ising问题转化为寻找平滑函数的局部最小值，该方法可以使用ADAM等基于梯度的优化器，并在各种基准测试中展示了可扩展性和强大的性能。

RESEARCH · CL_117383 · Jun 29 · 12:39

Hessian 特征向量动力学揭示神经网络训练中优化器的差异

研究人员分析了神经网络训练过程中 Hessian 特征向量的演变，揭示了不同优化器之间存在的独特行为。研究发现，SGD 倾向于随着时间的推移稳定主要的曲率方向，而 Adam 则表现出这些特征向量的显著重组。此外，Adam 还表现出一种局部化现象，即一小组参数不成比例地影响主要曲率。

TOOL · CL_115714 · Jun 29 · 04:00

新的优化方法自适应动量以加速神经网络训练

研究人员开发了一种新的神经网络优化方法，该方法根据每个参数的动能来调整动量系数。这种方法借鉴了连续时间动力学和结构动力学的立方阻尼，旨在与Adam等标准方法相比，提高稳定性和收敛速度。所提出的方案在涉及 Vision Transformers (ViT)、BERT 和 GPT-2 的任务上，已证明具有稳健性，并且性能与Adam相当或更优，理论结果支持其指数收敛。

TOOL · CL_126257 · Jun 28 · 03:44

新的Dead-Direction Conditioner优化深度神经网络

研究人员开发了一种名为Dead-Direction Conditioner (DDC)的新优化技术，旨在改进深度神经网络的训练。DDC解决了网络参数中存在的连续对称性问题，该问题可能导致Adam等标准优化器偏离最优学习路径。通过将基础优化器提升为G-等变优化器，DDC在轨道分解内对优化器状态进行条件化，确保轨迹保持在优化更有效的对称商上。与标准优化器相比，该方法在防止语言模型过拟合崩溃和在视觉Transformer中实现更低验证损失方…