AdamW · PulseAugur

新的ELO算法增强了学习型优化器在长时域任务上的性能

研究人员开发了一种新的元训练算法，称为高效长时域（ELO）学习，以解决当前学习型优化器（LOs）的局限性。ELO通过将计算重新分配到更长的失败模式，并提供解耦的渐进式专家监督来稳定学习信号，从而有效地将元训练扩展到长时域的内部问题。这种方法提高了LOs在语言建模和图像分类等下游任务上的性能和分布外泛化能力，ELO训练的优化器持续优于AdamW，并与Muon竞争。

TOOL · CL_129180 · Jul 7 · 04:00

新方法探测神经网络损失锐度以实现稳定的学习率

研究人员开发了一种新方法来估计神经网络中损失函数的局部锐度，这是稳定梯度步骤的关键因素。通过分析Armijo回溯线搜索期间接受的步长，他们可以推导出一种低成本的Hessian特征值探测器。该探测器在初始化期间使用一次，可提供一个学习率保护器，使Adam和AdamW等优化器在各种值和架构上都能抵御过大的初始学习率。

TOOL · CL_128854 · Jul 7 · 04:00

FedACT 方法通过异构数据改进了联邦 Transformer 训练

研究人员引入了 FedACT，这是一种旨在增强联邦 Transformer 训练鲁棒性的新颖方法，尤其是在处理异构客户端数据时。该方法通过基于逐坐标信任分数重新分配更新幅度，解决了 AdamW 等自适应优化器中的“坐标信任不匹配”问题。FedACT 优先更新同时得到局部梯度和全局校正一致支持的坐标，同时仍允许其他坐标进行较小的更新。在包括视觉 Transformer 和 LLM 在内的各种模型上的实验表明，FedACT 在现有联邦自适…

RESEARCH · CL_128460 · Jul 6 · 12:59

开发了图神经网络的新超参数迁移方法

研究人员开发了一种新颖的超参数迁移参数化方法，专门用于图神经网络（GNN）。该方法旨在通过利用来自较小、更易于管理的对应模型的见解来改进大型GNN的优化。所提出的参数化已通过SGD、Adam和AdamW优化器的验证，证明了在模型宽度和深度增加时具有稳定的特征更新和改进的性能。该工作还确定了SGD的图相关校正因子以加速早期训练，并探讨了消息传递归一化对Adam和AdamW迁移行为的影响。

RESEARCH · CL_128386 · Jul 3 · 17:45

新研究论文重新审视 Adam 优化器收敛性质

一篇新论文重新探讨了 Adam 优化算法的收敛性质，证明了具有任意动量衰减参数的投影 Adam 可以表现出有界非零的平均遗憾。这一发现扩展到各种 Adam 变体，包括 AdamW、RMSProp、NAdam、Adan、AdaMax 和 Muon。该研究利用了与先前工作类似的三周期线性函数序列，但对斜率参数进行了微调。

TOOL · CL_123125 · Jul 3 · 04:00

MetaTT 通过张量训练适配器引入参数高效微调

研究人员推出了一种新颖的预训练 Transformer 模型参数高效微调框架 MetaTT。MetaTT 利用张量训练 (TT) 适配器对 Transformer 子模块进行因子分解，从而实现参数数量加性而非乘性扩展的更紧凑适配器。基准测试表明，MetaTT 在标准语言建模任务上实现了具有竞争力的参数效率和准确性，在多任务学习中与最先进的方法相当。此外，该框架还包含一种受物理学启发的秩自适应优化器，该优化器与 AdamW 集成时可提高优化性能。

RESEARCH · CL_127595 · Jul 2 · 03:17

新研究探讨 LLM 效率，从移动推理到训练稳定性

研究人员正在探索各种方法来提高大型语言模型 (LLM) 的效率和性能。一种名为“Thinking Seeds”的方法使用历史检查点来提高 LLM 中强化学习的稳定性和探索性。另一个重点是优化移动设备上的 LLM 推理，研究人员分析了神经处理单元 (NPU)、中央处理单元 (CPU) 和图形处理单元 (GPU) 中的瓶颈，以降低能耗。此外，还在开发“Full-Stack FP4”等技术，以使用 4 位精度实现稳定的 LLM 预训练，而“…

TOOL · CL_120178 · Jul 1 · 13:04

矩阵正交化增强RNN记忆，适用于长时任务

研究人员开发了一种方法，通过在读取操作中应用矩阵正交化来提高循环神经网络（RNN）的记忆能力。该技术借鉴了语言模型中使用的优化器，旨在增强联想回忆能力，尤其是在嘈杂的环境中。实验表明，对mLSTM记忆矩阵进行正交化处理，显著提高了在嘈杂联想回忆任务上的性能，尤其是在词汇量和序列长度较大时。

RESEARCH · CL_118821 · Jun 30 · 19:54

新的“进程 Sidecar”方法允许精确撤销语言模型的记忆

研究人员推出了一种名为“进程 Sidecar”的新颖方法，用于在安全训练后撤销语言模型中的学习信息。该技术旨在精确删除特定记忆，而不会像简单的减法方法那样负面影响模型的安全能力。该方法在新的 arXiv 论文中进行了详细介绍，使用了双系数编辑家族，并与标准任务算术相比，在多个模型上显示出改进的拒绝关闭率。

RESEARCH · CL_119632 · Jun 30 · 17:02

新方法提高了LLM检查点迁移的准确性

研究人员开发了一种名为Signed-Permutation Coordinate Transport (SPCT)的新方法，以提高大型语言模型 (LLM) 检查点之间信息迁移的准确性。该技术通过同时考虑模型参数的置换和符号变化，解决了现有方法（尤其是在基于RMSNorm的模型上）的局限性。SPCT显著提高了坐标迁移的准确性，从而在稀疏自编码器重建和情感引导等任务中获得更好的性能。

RESEARCH · CL_117352 · Jun 29 · 00:00

新研究表明单步梯度延迟并非LLM预训练的障碍

一篇新的研究论文探讨了大规模LLM预训练的异步流水线并行方法，挑战了梯度延迟是不可逾越障碍的观点。研究表明，优化器的选择在单步梯度延迟下对性能有显著影响，像Muon这样的较新方法比AdamW等传统优化器更具鲁棒性。研究人员还引入了一种受误差反馈启发的校正方法，以进一步减轻延迟效应，在参数量高达100亿的模型上实现了与同步训练相当的性能。

RESEARCH · CL_117187 · Jun 28 · 18:44

研究发现优化器内存会在人工智能模型微调中引入显著噪声

一项新的研究论文指出，在微调过程中数据被洗牌的顺序会引入显著噪声，可能影响比较结果。这种噪声归因于像AdamW和SGD这样的优化器中的内存，它们根据步数索引而不是时间来处理梯度。该研究提出了量化这种顺序方差噪声的方法，并为有效的微调比较提供了标准。

TOOL · CL_126257 · Jun 28 · 03:44

新的Dead-Direction Conditioner优化深度神经网络

研究人员开发了一种名为Dead-Direction Conditioner (DDC)的新优化技术，旨在改进深度神经网络的训练。DDC解决了网络参数中存在的连续对称性问题，该问题可能导致Adam等标准优化器偏离最优学习路径。通过将基础优化器提升为G-等变优化器，DDC在轨道分解内对优化器状态进行条件化，确保轨迹保持在优化更有效的对称商上。与标准优化器相比，该方法在防止语言模型过拟合崩溃和在视觉Transformer中实现更低验证损失方…

RESEARCH · CL_117195 · Jun 28 · 03:44

新的Dead-Direction Conditioners改进深度网络优化

研究人员开发了Dead-Direction Conditioners (DDC)，一种用于深度神经网络的新型预处理方法，旨在提高优化稳定性和性能。DDC利用规范等变性将优化轨迹保持在对称商上，从而提高学习率的可读性。与AdamW等标准优化器相比，该方法在抵抗语言模型过拟合崩溃和在视觉Transformer中实现更低验证损失方面取得了显著改进。

RESEARCH · CL_111222 · Jun 25 · 15:39

新框架利用调查抽样理论改进梯度优化

研究人员开发了一种新颖的随机梯度优化框架，该框架利用调查抽样理论来降低梯度估计中的方差。这种模型辅助采样方法结合了辅助梯度预测模型来构建更有效的估计器，并与AdamW等现有优化器无缝集成。在各种数据集上的实证结果表明，在绝大多数实验中，尤其是在中等大小的输入空间中，性能有所提升，并且在更少的训练周期内实现了更好的泛化。

TOOL · CL_110101 · Jun 24 · 20:39

Gefen 优化器声称 LLM 训练内存减少 8 倍

Gefen 是一种新的优化器，旨在作为 AdamW 的直接替代品，目标是显著减少模型训练期间的内存使用量。开发者声称 Gefen 可以实现高达 8 倍的内存需求减少。该项目已在 GitHub 上发布了其代码并发表了相应的论文。

RESEARCH · CL_109596 · Jun 24 · 15:46

新的优化器 DMuon 和 HiMuon 提升 AI 训练效率 · 已追踪 6 个来源

研究人员开发了两种新的优化技术 DMuon 和分层 Muon (HiMuon)，以提高基于矩阵正交化的优化器（如 Muon）的效率。DMuon 可集成到现有训练流程中，显著加快基础模型和大型语言模型的训练速度，将延迟接近 AdamW 水平。而 HiMuon 则采用分块方法进行 Newton-Schulz 更新，减少计算量，并实现 transformer 训练的高效 GPU 利用。此外，Tensorion 被引入作为 Muon 的张量感…

TOOL · CL_105047 · Jun 22 · 17:58

开放性问题：AdamW 优化器在大型语言模型 (LLM) 中重尾噪声下的有效性

一篇近期论文提出了一个开放性问题，关于 AdamW 优化器在重尾噪声条件下训练大型语言模型 (LLM) 的有效性。尽管 AdamW 被广泛使用，但其理论理解仅限于有限方差场景，尽管有经验证据表明重尾噪声在 LLM 预训练中很常见。该论文探讨了 AdamW 在此环境下是否能够收敛，并将其与其他在重尾噪声下显示出收敛性的优化器（如 Lion 和 Muon）进行了对比，同时提供了一个加权指标基准和一个下界机制。

TOOL · CL_100174 · Jun 19 · 04:00

威布尔框架揭示了 transformer 中的 AdamW 训练动力学

一篇新的研究论文探讨了 transformer 模型在 AdamW 训练过程中权重尺度参数的演化。该研究将平方权重范数分解为三个力，确定了对齐力、注入力和衰减力是关键驱动因素。对 Pythia-70M 模型的分析表明，在权重尺度增长阶段，对齐力占主导地位，而在接近饱和时，对齐力和衰减力达到平衡，导致松弛。研究人员还开发了一种样条位移方法，可以从稀疏检查点中准确恢复对齐力。

RESEARCH · CL_95803 · Jun 15 · 23:43

新理论：SA-Adam 自适应性渐近不可见

研究人员发表了一篇论文，详细介绍了对自适应优化算法的理论分析，特别关注了带有动量和非收敛自适应预处理的 SA-Adam。该研究证明了在这种配置下存在一个非自治的 Polyak-Ruppert 中心极限定理，表明在迭代边际协方差方面，优化器的自适应性是渐近不可见的。这一发现表明，在某些条件下，特别是当动量增益亚线性衰减时，优化器的协方差结构会反映出普通随机梯度下降 (SGD) 的结构。