PulseAugur
实时 11:11:39
实体 Chiwun Yang

Chiwun Yang

PulseAugur coverage of Chiwun Yang — every cluster mentioning Chiwun Yang across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_84903 ·

    Transformer 缩放定律理论统一了学习动态和泛化

    研究人员开发了一个理论框架,用于统一理解 Transformer 模型中的学习动态和泛化。这项工作将 Transformer 训练形式化为一个常微分方程系统,并将其近似为核行为。分析揭示了泛化误差的一个两阶段缩放定律,在达到资源阈值后,先是指数衰减,然后是幂律衰减,并证明了该两阶段定律是紧密的。