研究人员开发了一个理论框架,用于统一理解 Transformer 模型中的学习动态和泛化。这项工作将 Transformer 训练形式化为一个常微分方程系统,并将其近似为核行为。分析揭示了泛化误差的一个两阶段缩放定律,在达到资源阈值后,先是指数衰减,然后是幂律衰减,并证明了该两阶段定律是紧密的。 AI
影响 为理解和预测 Transformer 在资源扩展时的性能提供了理论基础。
排序理由 详细阐述 Transformer 缩放定律理解方面理论进展的学术论文。 [lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →