PulseAugur
实时 00:48:32
Deutsch(DE) NVIDIA quantisiert Mistral Medium 3.5 (128B) mit Model Optimizer v0.44.0. NVFP4-Quantisierung reduziert GPU-Speicher bei minimaler Genauigkeitsverluste (z.B. MM

NVIDIA 量化 Mistral Medium 3.5 以减少 GPU 内存占用

NVIDIA 已使用其 Model Optimizer v0.44.0NVFP4 量化方法量化了 Mistral Medium 3.5 (128B) 模型。此过程显著降低了 GPU 内存需求,同时精度损失可忽略不计,MMLU Pro 基准测试的微小下降(82.31% 对比 82.20%)证明了这一点。量化后的模型可通过 vLLMNVIDIA B200 GPU 上进行部署。 AI

影响 能够更有效地在现有和未来硬件上部署大型语言模型,可能降低推理成本。

排序理由 主要硬件供应商对特定模型版本的量化,并附有详细的基准测试结果。[lever_c_demoted from research: ic=1 ai=1.0]

在 Mastodon — mastodon.social 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

NVIDIA 量化 Mistral Medium 3.5 以减少 GPU 内存占用

报道来源 [1]

  1. Mastodon — mastodon.social TIER_1 Deutsch(DE) · aisyndicate ·

    NVIDIA 使用 Model Optimizer v0.44.0 量化 Mistral Medium 3.5 (128B)。NVFP4 量化以最小的精度损失(例如 MM)减少 GPU 内存占用

    NVIDIA quantisiert Mistral Medium 3.5 (128B) mit Model Optimizer v0.44.0. NVFP4-Quantisierung reduziert GPU-Speicher bei minimaler Genauigkeitsverluste (z.B. MMLU Pro 82.31% vs 82.20%). Serving via vLLM auf NVIDIA B200. https:// huggingface.co/nvidia/Mistral- Medium-3.5-128B-NVFP…