实体 AdaGrad

AdaGrad

PulseAugur coverage of AdaGrad — every cluster mentioning AdaGrad across labs, papers, and developer communities, ranked by signal.

总计 · 30天

7

90 天内 7

发布 · 30天

0

90 天内 0

论文 · 30天

7

90 天内 7

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 7 条

RESEARCH · CL_117177 · Jun 29 · 07:31

AdaGrad 优化方案在复合目标上显示出收敛问题

一篇新发表在 arXiv 上的研究论文详细介绍了一个 AdaGrad 优化算法在应用于复合目标时存在的局限性。该论文展示了一种情况，由于其累积机制与复合最优性之间的不匹配，AdaGrad 无法达到预期的收敛速率。这是因为光滑项的梯度在最优值处可能不会减小，导致 AdaGrad 过度减小其步长并减慢收敛速度。
TOOL · CL_77376 · Jun 8 · 04:00

AdaGrad、RMSProp 和 Adam 的新连续时间模型

研究人员开发了一个连续时间框架来模拟 AdaGrad、RMSProp 和 Adam 等流行优化算法。通过将这些算法表示为积分微分方程，该研究为理解它们的行为提供了一个新的理论视角。数值模拟和收敛性分析证实，这些连续时间模型能够准确地近似原始的离散算法，从而为理解自适应优化方法提供了更深入的见解。
RESEARCH · CL_36602 · May 15 · 14:50

新的OptMuon方法通过自适应动量增强随机优化

研究人员推出了一种新颖的自适应动量正交化方法OptMuon，用于随机非凸优化，该方法通过观察到的轨迹校准更新幅度。该方法将Muon风格的方向与依赖于轨迹的系数计划相结合，避免了对平滑度常数或方差水平的依赖。OptMuon为噪声自适应性和零噪声最优性提供了理论保证，在无需手动调整超参数的情况下，可降低到接近最优的确定性速率。
TOOL · CL_27734 · May 9 · 14:47

研究发现Muon优化器在凸Lipschitz函数上失效

一篇新论文挑战了Muon优化算法的理论基础，证明它在凸Lipschitz函数上不收敛。研究表明，Muon的实际成功可能源于这种经典模型未能捕捉到的平滑特性。虽然误差反馈可以恢复理论收敛性，但它会降低在关键深度学习任务中的实际性能。
TOOL · CL_20689 · May 7 · 04:02

LLM 研究日记 #3：PyTorch 张量、浮点类型和训练基础设施

这篇 LLM 研究日记重点介绍了用于训练大型语言模型的 PyTorch 基础知识。它详细介绍了张量基础知识，探讨了 FP32、BF16 和 FP8 等各种浮点数据类型以提高效率和稳定性。该条目还涵盖了使用“einops”进行清晰的张量运算、计算成本（FLOPs）的计算方法以及使用自定义优化器和正确初始化进行模型构建的实际方面。
TOOL · CL_16257 · May 5 · 04:00

FG^2-GDN 通过自适应学习率增强长上下文理解

研究人员推出 FG$^2$-GDN，这是一种增强神经网络长上下文理解的新方法。该方法通过用通道向量替换标量学习率来改进现有的门控增量网络，从而实现更具维度特异性的适应。FG$^2$-GDN+ 的一个扩展通过解耦键和值的缩放，提供擦除和写入强度的独立管理，进一步优化了控制。实验表明，这些新变体在计算成本相似的情况下，实现了更好的联想回忆和长上下文理解。
RESEARCH · CL_14458 · May 4 · 04:00

新理论统一了非凸机器学习的自适应优化方法

研究人员开发了一个统一的框架来分析非凸机器学习中使用的一阶优化算法。该框架涵盖了AdaGrad、AdaNorm以及Shampoo和Muo的变体等流行方法。该分析为这些方法提供了随机收敛率，即使在有动量且不对梯度有界或步长较小的情况下也是如此。