NVIDIA 开发了一种新的 4 位预训练方法 NVFP4,旨在克服窄浮点格式中动态范围减小和量化误差增加的挑战。该方法通过在 10 万亿词元上预训练一个 120 亿参数的混合 Mamba-Transformer 模型得到了成功验证,标志着迄今为止公开记录的最长 4 位精度训练运行。在 MMLU-Pro 基准测试中,所得模型在性能上几乎与 FP8 基线相同,证明了 NVFP4 在大规模模型训练中的可行性。 AI
影响 通过降低精度要求而不显著损失性能,从而实现更高效的大型语言模型训练。
排序理由 该集群描述了一种新的预训练方法及其在大模型上的验证,作为研究成果提出。
AI 生成摘要 · Google Gemini · 来自 3 个来源。 我们如何撰写摘要 →