PulseAugur
实时 13:07:51
实体 Qwen2-0.5B

Qwen2-0.5B

PulseAugur coverage of Qwen2-0.5B — every cluster mentioning Qwen2-0.5B across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_105181 ·

    新的 AngularMuown 优化器改进 Transformer 预训练

    研究人员推出了一种新颖的优化算法 AngularMuown,它在 Muon 和 Muown 等矩阵感知优化器的原理基础上,隐式地执行角度步长衰减。该新方法显式优化归一化方向,并使用可调度的角度乘数,将其与径向幅度更新分离。初步结果显示 AngularMuown 的性能优于其前身 Muown,并且目前在 modded nanoGPT 速度运行竞赛中处于领先地位。在 Qwen2 模型上的实验表明,该算法能够有效地扩展到更大的参数数量。