English(EN) Towards the Connection between Activation Sparsity and Flat Minima

AI研究将激活稀疏性与损失平面性联系起来

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-26 04:00

研究人员在理论上将Transformer MLP中的激活稀疏性与其损失平面的平坦度联系起来。他们提出，这种可以降低计算成本的稀疏性受到涉及“增强平坦度”以及输入/梯度范数的比率的影响。该研究还引入了“导数稀疏性”作为一种更稳定的替代方法，有助于反向传播剪枝。在ImageNet-1K和C4上的实验表明，与标准Transformer相比，训练和推理稀疏性都有显著提高。 AI

影响有望显著降低AI模型的训练和推理成本。

排序理由关于理论AI概念和实证发现的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Ze Peng, Jian Zhang, Lei Qi, Yang Gao, Yinghuan Shi · 2026-05-26 04:00

关于激活稀疏性与平坦最小值之间联系的探讨

arXiv:2605.25612v1 Announce Type: cross Abstract: The observation that activation sparsity emerges in MLP blocks of standardly trained Transformers offers an opportunity to drastically reduce computation costs without sacrificing performance. To theoretically explain this phenome…

报道来源 [1]

关于激活稀疏性与平坦最小值之间联系的探讨

相关实体

相关话题