FineWeb-Edu
PulseAugur coverage of FineWeb-Edu — every cluster mentioning FineWeb-Edu across labs, papers, and developer communities, ranked by signal.
2 天有情绪数据
-
Muown 优化器通过控制行范数漂移来改进 LLM 训练
研究人员开发了 Muown,这是一种旨在改进大型语言模型训练的新型优化方法。Muown 解决了 Muon 优化器的问题,特别是训练过程中权重矩阵中谱范数的向上漂移。通过将行幅度向量视为显式变量,Muown 提高了各种模型规模下的困惑度和学习率稳定性,性能优于 AdamW 和 Lion 等现有优化器。
-
OrScale优化方法改进神经网络训练
研究人员推出了一种名为OrScale的新型优化技术,旨在增强神经网络训练。OrScale在Muon方法的基础上,通过引入层级信任比率缩放来衡量实际应用参数空间方向的Frobenius范数。这一新论文中详细介绍的方法旨在改进现有的Muon和AdamW等方法,尤其适用于语言模型。
-
研究人员探索通过模块化组合和分层扩展来增长 Transformer 模型
研究人员探索了一种通过向冻结的基础模型增量添加新层来训练 Transformer 模型的方法,同时保持可训练参数的恒定预算。这种被称为“Growing Transformers”的方法表明,即使只更新模型参数的一小部分,新的模块也可以被有效训练。即使在高度受限的 token 接口下,一个 16 层模型也取得了显著的 MMLU 分数,这表明在参数预算限制下持续学习的可行性,尽管与整体训练相比,最终的困惑度有所权衡。
-
OpenMythos project reconstructs Anthropic's secretive Claude Mythos AI model
A new open-source project called OpenMythos has been released, aiming to theoretically reconstruct the architecture of Anthropic's Claude Mythos model. This project implements a Recurrent-Depth Transformer (RDT) with a …