English(EN) A Self-Attentive Meta-Optimizer with Group-Adaptive Learning Rates and Weight Decay

新的MetaAdamW优化器使用自注意力实现自适应学习率

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-07 04:00

研究人员开发了MetaAdamW，这是一种新颖的优化器，通过采用自注意力机制来增强自适应学习率和权重衰减。这种基于Transformer的方法根据统计特征动态调整不同参数组的超参数，旨在克服AdamW等优化器中统一设置的局限性。跨不同任务的实验表明，MetaAdamW的性能持续优于AdamW，缩短了训练时间或提高了性能。 AI

影响引入了一种新颖的优化器，有望提高各种机器学习任务的训练效率和性能。

排序理由这是一篇详细介绍机器学习模型新优化算法的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · JiangBo Zhao, ZhaoXin Liu · 2026-05-07 04:00

具有组自适应学习率和权重衰减的自注意力元优化器

arXiv:2605.04055v1 Announce Type: new Abstract: Adaptive optimizers like AdamW apply uniform hyperparameters across all parameter groups, ignoring heterogeneous optimization dynamics across layers and modules. We address this limitation by proposing MetaAdamW - a new optimizer th…

报道来源 [1]

具有组自适应学习率和权重衰减的自注意力元优化器

相关实体

相关话题