PulseAugur
实时 07:08:24
English(EN) NVIDIA Introduces a 4-Bit Pretraining Methodology Using NVFP4, Validated on a 12B Hybrid Mamba-Transformer at 10T Token Horizon

NVIDIA 推出 LLM 的 4 位预训练方法 NVFP4

NVIDIA 开发了一种新的 4 位预训练方法 NVFP4,旨在克服窄浮点格式中动态范围减小和量化误差增加的挑战。该方法通过在 10 万亿词元上预训练一个 120 亿参数的混合 Mamba-Transformer 模型得到了成功验证,标志着迄今为止公开记录的最长 4 位精度训练运行。在 MMLU-Pro 基准测试中,所得模型在性能上几乎与 FP8 基线相同,证明了 NVFP4 在大规模模型训练中的可行性。 AI

影响 通过降低精度要求而不显著损失性能,从而实现更高效的大型语言模型训练。

排序理由 该集群描述了一种新的预训练方法及其在大模型上的验证,作为研究成果提出。

在 MarkTechPost 阅读 →

AI 生成摘要 · Google Gemini · 来自 3 个来源。 我们如何撰写摘要 →

NVIDIA 推出 LLM 的 4 位预训练方法 NVFP4

报道来源 [3]

  1. MarkTechPost TIER_1 English(EN) · Asif Razzaq ·

    NVIDIA 推出使用 NVFP4 的 4 位预训练方法,在 10T 标记的 12B 混合 Mamba-Transformer 上进行了验证

    <p>NVIDIA introduces a 4-bit pretraining methodology built around the NVFP4 microscaling format — combining selective BF16 layers, 16×16 Random Hadamard Transforms on Wgrad inputs, 2D weight scaling, and stochastic rounding on gradients — validated on a 12B hybrid Mamba-Transform…

  2. Mastodon — sigmoid.social TIER_1 English(EN) · [email protected] ·

    NVIDIA 推出使用 NVFP4 的 4 位预训练方法,该方法在 10 万亿个 token 上训练的 120 亿参数混合 Mamba-Transformer 上进行了验证 -

    NVIDIA has introduced a 4-bit pretraining methodology using NVFP4, validated on a 12 billion parameter hybrid Mamba-Transformer trained on 10 trillion tokens - the longest publicly documented 4-bit pretraining run. Accuracy closely matches the FP8 baseline at 62.58% versus 62.62%…

  3. Mastodon — fosstodon.org TIER_1 Polski(PL) · [email protected] ·

    NVIDIA 已证明在 4 位 NVFP4 精度下使用 10 万亿个 token 训练模型不会导致质量下降。这是 Blackwell 架构的基础

    NVIDIA udowodniła, że trenowanie modeli na 10 bilionach tokenów w 4-bitowej precyzji NVFP4 nie powoduje spadku jakości. To fundament pod architekturę Blackwell i szansa na radykalne obniżenie kosztów szkolenia AI. # si # ai # sztucznainteligencja # wiadomości # informacje # techn…