PulseAugur
实时 08:09:05
English(EN) Demystifying Manifold Constraints in LLM Pre-training

新的MACRO优化器揭秘大语言模型预训练约束

研究人员推出了一种新颖的优化框架MACRO,旨在揭秘大语言模型预训练中流形约束的作用。该框架在理论上将权重正则化与RMS归一化和解耦权重衰减等其他稳定技术分离开来。在大规模大语言模型架构上的实证评估表明,MACRO在保持精确黎曼优化的理论保证的同时,取得了具有竞争力的性能。 AI

影响 引入了一个新的优化框架,可能会提高大语言模型的训练稳定性和性能。

排序理由 这是一篇详细介绍大语言模型预训练新优化框架的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新的MACRO优化器揭秘大语言模型预训练约束

报道来源 [1]

  1. arXiv cs.LG TIER_1 English(EN) · Kang An, Jiaxiang Li, Donald Goldfarb, Shiqian Ma ·

    揭秘LLM预训练中的流形约束

    arXiv:2605.04418v1 Announce Type: new Abstract: The empirical success of large language model (LLM) pre-training relies heavily on heuristic stabilization techniques, such as explicit normalization layers and weight decay. While recent constrained optimization approaches that exp…