PulseAugur
实时 12:33:46
English(EN) Unifying Learning Dynamics and Generalization in Transformers Scaling Law

Transformer 缩放定律理论统一了学习动态和泛化

研究人员开发了一个理论框架,用于统一理解 Transformer 模型中的学习动态和泛化。这项工作将 Transformer 训练形式化为一个常微分方程系统,并将其近似为核行为。分析揭示了泛化误差的一个两阶段缩放定律,在达到资源阈值后,先是指数衰减,然后是幂律衰减,并证明了该两阶段定律是紧密的。 AI

影响 为理解和预测 Transformer 在资源扩展时的性能提供了理论基础。

排序理由 详细阐述 Transformer 缩放定律理解方面理论进展的学术论文。 [lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Chiwun Yang ·

    Unifying Learning Dynamics and Generalization in Transformers Scaling Law

    arXiv:2512.22088v3 Announce Type: replace-cross Abstract: The scaling law, a cornerstone of Large Language Model (LLM) development, predicts improvements in model performance with increasing computational resources. Yet, while empirically validated, its theoretical underpinnings …