English(EN) Unifying Learning Dynamics and Generalization in Transformers Scaling Law

Transformer 缩放定律理论统一了学习动态和泛化

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-11 04:00

研究人员开发了一个理论框架，用于统一理解 Transformer 模型中的学习动态和泛化。这项工作将 Transformer 训练形式化为一个常微分方程系统，并将其近似为核行为。分析揭示了泛化误差的一个两阶段缩放定律，在达到资源阈值后，先是指数衰减，然后是幂律衰减，并证明了该两阶段定律是紧密的。 AI

影响为理解和预测 Transformer 在资源扩展时的性能提供了理论基础。

排序理由详细阐述 Transformer 缩放定律理解方面理论进展的学术论文。 [lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Chiwun Yang · 2026-06-11 04:00

Unifying Learning Dynamics and Generalization in Transformers Scaling Law

arXiv:2512.22088v3 Announce Type: replace-cross Abstract: The scaling law, a cornerstone of Large Language Model (LLM) development, predicts improvements in model performance with increasing computational resources. Yet, while empirically validated, its theoretical underpinnings …

报道来源 [1]

Unifying Learning Dynamics and Generalization in Transformers Scaling Law

相关实体

相关话题