实体
Megatron
Megatron
PulseAugur coverage of Megatron — every cluster mentioning Megatron across labs, papers, and developer communities, ranked by signal.
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天
2 天有情绪数据
最近 · 第 1/1 页 · 共 2 条
-
中国AI创造AI:ForgeTrain框架训练MiniCPM5-1B模型
中国AI公司MiniMax开发了ForgeTrain,一个完全由AI生成的全新预训练框架,并成功训练了一个名为MiniCPM5-1B的新型小型模型。该框架据称在训练速度上比NVIDIA的Megatron快10%,并提供了一种名为Forge Engineering的新软件范式,强调为特定模型和硬件定制代码生成。拥有10亿参数的MiniCPM5-1B模型,在其尺寸下展现出高智能密度,并专为边缘设备的有效部署而设计,展示了向更小、更强大AI…
-
新型运行时提升流水线并行AI训练效率
研究人员开发了一个名为“就绪性优先流水线运行时”(RRFP)的新型运行时系统,旨在提高使用流水线并行进行大模型训练的效率。当任务就绪性偏离预设计划时,传统系统可能会出现空闲时间和利用率降低的问题。RRFP通过将计划视为灵活的提示而非严格的指令来解决这个问题,使各个阶段能够更早地执行可用工作。在多达128个GPU上的评估显示,RRFP在多模态工作负载上的训练速度比现有方法快2.77倍,实现了显著的加速。