gradient descent · PulseAugur

新的混合方法加速 MIONet 训练

研究人员引入了一种新颖的混合最小二乘法/梯度下降法 (LSGD)，旨在加速 MIONets 的训练。该方法将现有的用于 DeepONets 的 LSGD 技术进行了扩展。该方法将 MIONets 视为多线性函数，通过对单个分支网络进行交替最小二乘法过程来优化参数。为了处理大型系统矩阵，该技术利用 Kronecker 和 Khatri-Rao 积以及张量置换矩阵进行高效分解。

RESEARCH · CL_131356 · Jul 7 · 08:55

新研究探讨平滑符号下降法的稳定性退火

本文将稳定性退火作为一种方法，用于影响可分数据上线性分类中平滑符号下降法的隐式偏差。作者证明该技术可使归一化迭代收敛到特定的凸Burg型障碍。研究还通过实验验证了这些理论发现，展示了该方法的准确性，并通过各种诊断测试探索了其鲁棒性。

TOOL · CL_129269 · Jul 7 · 04:00

新分析统一了深度神经网络的梯度下降收敛性

研究人员开发了一种统一的收敛性分析方法，适用于训练深度神经网络的各种梯度下降优化方法。这种新分析适用于广泛的优化器，包括 Adam、Momentum 和 RMSprop，当与 Softplus 和 GeLU 等解析激活函数一起使用时。该研究利用 Kurdyka-Łojasiewicz 不等式证明了收敛到临界点，为理解 AI 优化算法，特别是 Adam 优化器，做出了新的贡献。

TOOL · CL_128586 · Jul 7 · 04:00

谱梯度下降通过缓解失配来增强 AI 模型训练

一篇新论文介绍了一种名为谱梯度下降（SpecGD）的优化方法，该方法通过保留方向信息而丢弃尺度来增强深度学习性能。研究使用非线性相位恢复模型分析了 SpecGD 的有效性，该模型等同于训练一个两层神经网络。研究表明，SpecGD 缓解了由各向异性输入引起的失配问题，而各向异性输入会通过放大无信息方差方向来阻碍标准梯度下降。与传统的梯度下降相比，这可以实现更稳定的对齐和更快的降噪。

RESEARCH · CL_128465 · Jul 6 · 12:28

研究论文将梯度下降重构为动力系统

一篇新研究论文将有限步梯度下降探索为离散动力系统，而非简单的优化工具。该研究分析了训练图的行为，包括稳定性边缘和振荡等现象，如何受到学习率的影响。通过检查深度学习的简化模型，该研究表明学习率是塑造梯度下降所选表示的基本结构参数，而不仅仅是数值稳定性常数。

TOOL · CL_126151 · Jul 5 · 11:28

机器学习术语解析：基于梯度的优化与随机函数

本文深入探讨了复杂的机器学习术语，重点关注基于梯度的优化和随机目标函数。文章将一阶基于梯度的优化解释为一种仅使用一阶导数来最小化损失函数的方法，并辅以数学示例说明该过程。文章还定义了随机目标函数为涉及随机性的函数，通常通过使用小批量数据而非整个数据集来计算梯度来近似，这会引入噪声但计算效率高。

RESEARCH · CL_128377 · Jul 4 · 13:26

新的梯度下降方案改进了 MMD 估计

研究人员引入了一种新的预条件梯度下降 (PGD) 方案，以解决最小最大均值差异 (MMD) 估计中优化问题理解不足的问题。这种新颖的方法在特定的梯度优势和投影残差条件下建立了全局收敛性，其灵感来源于 MMD 梯度流。实证结果表明，PGD 方案在各种参数估计和假设检验任务中优于标准的梯度下降。

RESEARCH · CL_128384 · Jul 3 · 20:35

LoRA技术赋能大型AI模型高效微调

多篇文章讨论了大型语言模型的微调，特别关注LoRA（低秩适配）技术。LoRA通过仅训练一小部分参数来实现大型模型的有效适配，使其在性能较低的硬件上也能实现。该方法与需要大量计算资源的全量微调形成对比。文章还涉及了Adam等优化算法，这对于这些大型模型的实际训练至关重要，并探讨了机器学习模型的更广泛发展历程。

TOOL · CL_117959 · Jun 30 · 04:00

研究发现Muon优化器的加速可能损害泛化能力

一篇新研究论文分析了优化算法Muon，该算法因其比Adam更快的训练速度而广受欢迎。研究表明，Muon通过避免鞍点来实现其速度，但这以梯度下降中发现的简单性偏差的损失为代价。这种简单性偏差的损失可能导致Muon在识别跨任务的潜在结构时遇到困难，并可能拟合虚假特征，这表明更快的优化不一定有利于泛化。

TOOL · CL_117145 · Jun 29 · 17:52

遗传算法在高维人工智能搜索中模拟了裁剪梯度下降

研究人员已经证明，遗传算法可以在高维搜索空间中有效地充当一种裁剪梯度下降。这个过程涉及变异-选择机制，它们在不直接计算的情况下隐式地遵循损失函数的梯度。由于噪声，遗传算法比传统的梯度下降慢，但其性能取决于损失函数Hessian的有效秩，这可能远小于参数的总数，尤其是在神经网络损失景观中。这一特性可能解释了遗传算法在复杂、高维问题中的可扩展性。

RESEARCH · CL_117360 · Jun 29 · 16:17

Muon 优化器加速矩阵分解，绕过梯度下降的局限性

一篇新研究论文介绍 Muon 优化器，该优化器在矩阵分解任务中表现出比传统梯度下降更优的性能。Muon 避免了缓慢的鞍点到鞍点动力学，通过同时学习所有顶部模式来实现更快的收敛。它还以更高的学习率保持稳定性，并在优化过程中表现出不同的守恒量，从而能够通过定制的学习率计划在短短两步内实现快速对齐和近乎完美的收敛。

TOOL · CL_106826 · Jun 22 · 14:00

新框架分析神经网络中梯度下降的收敛性

研究人员开发了一个新框架来分析神经网络中梯度下降的收敛性，该框架超越了传统的神经切线核（NTK）理论。该框架适用于广泛的架构，包括预归一化的多层Transformer，并证明在温和的假设和特定的初始化下，梯度下降可以收敛到一个稳定点。该分析沿梯度下降轨迹建立了Lipschitz平滑性，并揭示学习率缩放取决于网络深度和瓶颈维度而非宽度，这对残差连接和函数组合具有影响。

COMMENTARY · CL_103021 · Jun 21 · 23:16

数学家驳斥AI突破是可预测的数学

一位数学家认为，现代AI在数学上并没有什么突破性进展，而只是计算能力、海量数据和经济激励增加的必然结果。作者批评公众热衷于与科技公司分享个人信息，认为这是由AI的所谓成功所驱动的一个重大的社会转变。

TOOL · CL_106741 · Jun 20 · 14:10

新的机器学习评估指标优先考虑计算成本而非准确率

一篇新研究论文提出了一种机器学习模型评估的范式转变，超越了最大准确率，转而考虑计算成本。该指标基于达到目标准确率所需的梯度下降步数，被视为一种新颖的自动化机器学习（AutoML）形式。在11个模型和五个数据集上的实验表明，大的学习率可以优化此成本指标，从而促进泛化并减少训练时间。该研究还确定了实现较低准确率目标与性能极限的不同策略，建议前者采用单次运行，后者采用多次短时重启。

TOOL · CL_106744 · Jun 19 · 18:43

新分析详细介绍了逻辑回归中梯度下降的性能

本文分析了高斯设计下逻辑回归中梯度下降的有限样本性能。作者证明，在步长较小的情况下，梯度下降可以实现向真实参数的小邻域的线性收敛，其 $\ell_2$ 误差为 $O(\sqrt{\|\theta^*\|_2^5d/n})$。他们还证明了使用较大步长可以实现更快的局部线性收敛。一项关键的技术贡献是证明了逻辑损失的梯度满足近似可逆性条件，这是通过对梯度偏差进行统一控制和对总体Hessian特征值进行精细分析来实现的。该研究还提出了一种新颖…

RESEARCH · CL_99702 · Jun 18 · 07:34

新的得分匹配方法有望实现生成模型的全局收敛

研究人员开发了一种新的生成模型得分匹配方法，该方法利用反向 Fisher 散度而非标准的正向 Fisher 散度。这种替代目标显示出改进的优化特性，特别是对于高斯混合模型。该研究在特定条件下证明了梯度下降的全局收敛性，表明学生分量可以收敛到接近其最近的教师分量，并为全变分距离收敛提供了保证。

TOOL · CL_98214 · Jun 18 · 04:00

ReLU激活函数对神经网络中梯度下降偏差的影响详述

一篇新的研究论文探讨了ReLU激活函数如何影响高维神经网络回归中梯度下降的隐式偏差。该研究采用新颖的对偶原分析方法，证明对于足够高维的随机数据，隐式偏差近似于最小 $\ell_2$-范数解。此近似以高概率实现，其差距的量级为 $\Theta(\sqrt{n/||\lambda||_1})$，其中 $n$ 是训练样本的数量，$\lambda$ 代表数据协方差矩阵的光谱。研究结果表明，在这些条件下，ReLU激活模式会快速稳定。

TOOL · CL_98196 · Jun 18 · 04:00

新研究探讨GD和SGD中非线性动力学的稳定性

研究人员调查了梯度下降（GD）和随机梯度下降（SGD）优化算法中非线性动力学的稳定性，超越了简化的二次势能假设。该研究推导出了GD在最小值附近稳定振荡的精确判据，该判据依赖于高阶导数并推广了现有发现。对于SGD，研究表明非线性动力学可能由于单个不稳定的批次而导致期望发散，这与表明平均效应的线性分析形成对比。该论文还证明，如果所有批次都线性稳定，则SGD的非线性动力学在期望上保持稳定。

RESEARCH · CL_93832 · Jun 16 · 04:00

新研究收紧逻辑回归梯度下降的界限 · 跟踪2个来源

两篇新的arXiv论文深入探讨了逻辑回归梯度下降的理论基础。第一篇论文侧重于低维、可分离数据，通过分析损失函数的动力学来收紧收敛速率的界限。第二篇论文研究了具有高斯设计的逻辑回归，表征了有限样本估计性能，并在不同步长条件下建立了更快的参数估计收敛速率。两项研究都有助于更深入地理解梯度下降在这些特定机器学习背景下的行为。