SGD · PulseAugur

新的PAC-贝叶斯框架解释了对抗训练过拟合

研究人员开发了一个新的PAC-贝叶斯分析框架，以理解对抗训练中鲁棒过拟合的现象。通过将具有动量SGD的对抗训练建模为一个离散时间动力学系统，该框架提供了时域解析的鲁棒泛化界限。这种方法将模型的鲁棒泛化性能与学习率、局部损失几何和迷你批次随机梯度等因素联系起来，深入了解了鲁棒过拟合的潜在机制，并提出了改进泛化的方法。

RESEARCH · CL_133219 · Jul 8 · 14:32

新理论解释了对比学习为何能产生有用的图像表示

研究人员开发了一个理论框架，以理解为何使用简单的图像增强进行对比学习能够为下游任务生成有效的表示。该研究分析计算了各种增强和具有平稳统计数据的各种数据集的最优表示。研究结果表明，某些最优表示可以通过卷积神经网络（CNN）实现，其初始层学习正弦滤波器，然后是逐点非线性、全局平均池化和部分白化线性层。这些正弦权重可以使用基于数据集功率谱的水填充算法来确定，这一现象在实验中得到了经验观察。

RESEARCH · CL_131348 · Jul 7 · 11:25

新EISAM优化器增强深度学习泛化能力

研究人员推出了一种名为“受外梯度启发的锐度感知最小化”（EISAM）的新型优化器，旨在提高深度学习的泛化能力。EISAM采用两步过程，包括预测和扰动步骤，以导航损失景观并找到更平坦的最小值。该方法旨在减少过拟合并提高在未见数据上的性能，其表现优于SGD和Adam等传统优化器以及标准的SAM。EISAM还显示出对扰动半径的敏感性降低，从而简化了调整并提高了跨各种架构和数据集的鲁棒性。

RESEARCH · CL_131327 · Jul 7 · 06:58

新的K-ABENA框架通过选择性梯度计算大幅降低AI训练成本

研究人员推出了一种用于神经网络训练中选择性梯度计算的新框架K-ABENA。该方法旨在通过排除一部分低损失观测值在反向传播中的参与来降低每次迭代的计算成本。K-ABENA的补偿版本利用Horvitz-Thompson重加权技术，实现了无偏梯度估计，并展示了与全批量随机梯度下降（SGD）相当的收敛保证，同时提供了显著的计算节省。

RESEARCH · CL_129168 · Jul 7 · 04:00

新研究揭示深度ReLU网络和SGD训练动力学的奥秘

两篇新研究论文探讨了深度前馈ReLU网络的底层原理和训练动力学。第一篇论文深入研究了这些网络的机制，解释了隐藏层单元如何创建分段线性流形来划分输入空间，从而揭开了深度学习“黑箱”的神秘面纱。第二篇论文侧重于宽ReLU网络中随机梯度下降（SGD）的隐式偏差，揭示了尽管存在过度参数化，但学习到的预测器有效地坍缩为有限表示，其复杂度由数据的组合几何决定。

TOOL · CL_129159 · Jul 7 · 04:00

用于分层特征学习的新型多尺度单指标模型

研究人员引入了多尺度单指标模型（MSIM），这是一个风格化框架，旨在研究具有尺度分离的分层特征学习。该模型通过让每一层提取一个共享的单指标特征来分析深度架构如何在不同尺度上学习表示。该研究详细介绍了MSIM与张量PCA模型的关系，并使用Edgeworth展开对Wiener混沌进行细粒度分析，揭示了能够有效进行谱恢复和反向传播方法分析的结构。研究结果表明，在线SGD可以实现近乎完美的恢复，其样本复杂度与线性模型相当。

TOOL · CL_128854 · Jul 7 · 04:00

FedACT 方法通过异构数据改进了联邦 Transformer 训练

研究人员引入了 FedACT，这是一种旨在增强联邦 Transformer 训练鲁棒性的新颖方法，尤其是在处理异构客户端数据时。该方法通过基于逐坐标信任分数重新分配更新幅度，解决了 AdamW 等自适应优化器中的“坐标信任不匹配”问题。FedACT 优先更新同时得到局部梯度和全局校正一致支持的坐标，同时仍允许其他坐标进行较小的更新。在包括视觉 Transformer 和 LLM 在内的各种模型上的实验表明，FedACT 在现有联邦自适…

RESEARCH · CL_128460 · Jul 6 · 12:59

开发了图神经网络的新超参数迁移方法

研究人员开发了一种新颖的超参数迁移参数化方法，专门用于图神经网络（GNN）。该方法旨在通过利用来自较小、更易于管理的对应模型的见解来改进大型GNN的优化。所提出的参数化已通过SGD、Adam和AdamW优化器的验证，证明了在模型宽度和深度增加时具有稳定的特征更新和改进的性能。该工作还确定了SGD的图相关校正因子以加速早期训练，并探讨了消息传递归一化对Adam和AdamW迁移行为的影响。

RESEARCH · CL_128356 · Jul 6 · 08:07

新研究详解基于分数的生成模型SGD收敛性

研究人员发表了一篇论文，详细介绍了随机梯度下降（SGD）应用于基于分数的生成模型（SGMs）时的非渐近收敛性。该研究为训练SGMs的SGD提供了理论保证，解决了优化动力学问题，而这方面的研究比其采样过程的研究要少。该工作为一般分数参数化建立了收敛率，并使用神经切线核分析了过参数化网络，为实际中的权重选择提供了指导。

TOOL · CL_123268 · Jul 3 · 04:00

新框架统一Lyapunov-IQC以实现加速优化器稳定性

研究人员开发了一个新的框架，使用Lyapunov函数和积分二次约束（IQC）来分析加速一阶优化算法的统一稳定性。该方法将先前关于随机梯度下降（SGD）的工作扩展到Nesterov加速梯度（NAG）等方法，这些方法由于动量动力学而更加复杂。该框架将优化器建模为反馈互连，并使用可通过半定规划（SDP）求解的线性矩阵不等式（LMIs）来认证稳定性，为验证优化算法提供了一种模块化方法。

TOOL · CL_123246 · Jul 3 · 04:00

LLM-PV 方法利用 LLM 先验知识提高程序学习效率

研究人员开发了一种名为 LLM-PV 的新方法，该方法利用预训练的大型语言模型 (LLM) 来提高程序学习效率。该方法利用 LLM 生成候选程序，然后在验证集上执行和评分，而无需直接对 LLM 进行梯度更新。实验表明，LLM-PV 能有效地从小数据集中恢复底层规则并具有良好的泛化能力，在奇偶校验变体和素数测试等任务上优于传统的 SGD 训练 Transformer 和上下文学习等方法。研究结果表明，LLM 先验知识可以作为经验风险最小…

TOOL · CL_123136 · Jul 3 · 04:00

新的自适应批次大小方法将训练步骤减少多达 66%

研究人员开发了一种新的机器学习自适应批次大小方法，该方法考虑了诸如 signSGD 和谱下降等优化器的非欧几里得几何。该方法使用局部 mini-batch 梯度估计非欧几里得梯度噪声尺度，可以显著减少训练步骤。实验表明，使用 signSGD 和谱下降对一个拥有 1.6 亿参数的 Llama 模型，训练步骤减少了多达 66%，同时验证损失与恒定批次基线相匹配。

TOOL · CL_119484 · Jul 1 · 04:00

新的梯度平滑方法增强了深度神经网络的优化

研究人员引入了一种名为深度层梯度增强的新优化范式，旨在改进具有Transformer等重复架构块的深度神经网络的训练。这种方法称为梯度平滑，通过考虑深度维度来转换层更新，从而在包括语言模型预训练和扩散建模在内的各种任务中获得更好的优化和泛化性能。该方法与现有优化器兼容，计算开销极小，促进了更结构化的表示演化。

RESEARCH · CL_119700 · Jun 30 · 17:38

已证明随机重排在优化中优于SGD

研究人员已从理论上证明，在光滑凸优化中，随机重排（RR）优于标准的随机梯度下降（SGD）。此前，尽管RR取得了经验上的成功，但由于理论上的限制限制了其步长和收敛速度，它一直被认为是一种启发式方法。这项新工作确立了在任何合理的步长和任何有限的训练周期后，RR都优于SGD，从而解决了该领域一个长期存在的悬而未决的问题。

RESEARCH · CL_119613 · Jun 30 · 08:18

LLM 对话代理通过新的提示策略提高安全性 · 已追踪 2 个来源

一篇新的研究论文探讨了一种轻量级提示策略，以提高大型语言模型在面向任务的对话中数据库交互失败时的安全性。提出的“引导重试”（Guided-Retry）方法旨在减少幻觉，例如捏造预订详情或确认信息，而无需重新训练模型。该策略在包括 Llama 3 和 Qwen 2.5 在内的六个开放权重模型家族上，在 MultiWOZ 2.2 和 SGD 等基准测试中进行了测试，幻觉率显著降低了高达 50%。然而，残余幻觉仍然存在，尤其是在错误领域检索的情况下。

RESEARCH · CL_119685 · Jun 29 · 21:32

新研究详解SGD在学习率稳定性边缘的自稳定

一篇题为“SGD at the Edge of Stability: Stochastic Stabilization with Large Learning Rates”的新研究论文，探讨了随机梯度下降（SGD）在深度学习中的行为。该研究为SGD应用于多类交叉熵损失函数在线性分类器和两层神经网络时提供了理论收敛保证。研究表明，虽然SGD的随机性可能导致其在不稳定和稳定状态之间振荡，但该算法能够内在地实现自稳定，即使在较大的学习率下也能确保收敛。

RESEARCH · CL_117170 · Jun 29 · 15:22

新的 CWGD 方法改进了深度学习的优化噪声测量

研究人员开发了一种名为曲率加权梯度多样性 (CWGD) 的新方法，以更好地测量深度学习模型中的优化噪声。与传统上同等对待所有参数方向的方法不同，CWGD 考虑了高曲率方向的噪声影响较小的这一事实。通过用 Hessian 的平方根的倒数来加权梯度多样性，CWGD 为有效的优化噪声提供了更准确的代理。与标准的余弦退火相比，CWGD 调制的余弦学习率计划 CWGD-Cosine 已显示出将最终优化误差降低高达 20% 的潜力，而开销可忽略不计。

RESEARCH · CL_117171 · Jun 29 · 15:17

SGD Provably Learns Spurious Features First in Neural Networks

一篇新发表在arXiv上的理论研究，探讨了随机梯度下降（SGD）在两层ReLU神经网络中学习虚假特征（spurious features）的机制。研究表明，SGD会优先并以指数级的速度学习这些虚假相关性，甚至在学习实际信号之前。该研究的分析揭示，优化动态可能会将虚假特征和信号特征耦合起来，从而可能阻碍真实信号的学习，尤其是在虚假相关性很强的情况下。

RESEARCH · CL_117383 · Jun 29 · 12:39

Hessian 特征向量动力学揭示神经网络训练中优化器的差异

研究人员分析了神经网络训练过程中 Hessian 特征向量的演变，揭示了不同优化器之间存在的独特行为。研究发现，SGD 倾向于随着时间的推移稳定主要的曲率方向，而 Adam 则表现出这些特征向量的显著重组。此外，Adam 还表现出一种局部化现象，即一小组参数不成比例地影响主要曲率。

RESEARCH · CL_117187 · Jun 28 · 18:44

研究发现优化器内存会在人工智能模型微调中引入显著噪声

一项新的研究论文指出，在微调过程中数据被洗牌的顺序会引入显著噪声，可能影响比较结果。这种噪声归因于像AdamW和SGD这样的优化器中的内存，它们根据步数索引而不是时间来处理梯度。该研究提出了量化这种顺序方差噪声的方法，并为有效的微调比较提供了标准。