研究人员发现了一种边界层机制,该机制解释了在线Softmax分类中的三分之一缩放。该机制表明,只有接近教师决策边界的样本在后期学习中才做出显著贡献。该研究预测测试损失和泛化误差的幂律学习曲线为 \(\\alpha^{-1/3}\\) ,这比贝叶斯最优参考值慢。他们还建议学习率调度可以改善泛化误差,使其趋向 \(\\alpha^{-1/2}\\) 的幂律。 AI
影响 识别出当前分类方法的一个理论限制,并提出通过调整学习率进行潜在改进。
排序理由 学术论文,详细介绍了分类缩放的新理论机制。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →