研究人员在神经网络中发现了一种称为“权重漂移”的现象,其中优化过程会无意中将权重推向负值。这种漂移独立于训练数据,在使用标准损失函数和 ReLU、GELU 等常见激活函数时会出现。研究表明,这种漂移会导致显著的激活稀疏性,可能影响模型准确性,并且还会放大 Transformer 层中的激活尖峰。 AI
影响 识别出一种可能影响各种架构模型性能和效率的基本训练动态。
排序理由 学术论文,详细介绍了神经网络训练动态中新发现的现象。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →