Deutsch(DE) NVIDIA quantisiert Mistral Medium 3.5 (128B) mit Model Optimizer v0.44.0. NVFP4-Quantisierung reduziert GPU-Speicher bei minimaler Genauigkeitsverluste (z.B. MM

NVIDIA 量化 Mistral Medium 3.5 以减少 GPU 内存占用

作者 PulseAugur 编辑部 · [1 个来源] · 2026-07-01 16:40

NVIDIA 已使用其 Model Optimizer v0.44.0 和 NVFP4 量化方法量化了 Mistral Medium 3.5 (128B) 模型。此过程显著降低了 GPU 内存需求，同时精度损失可忽略不计，MMLU Pro 基准测试的微小下降（82.31% 对比 82.20%）证明了这一点。量化后的模型可通过 vLLM 在 NVIDIA B200 GPU 上进行部署。 AI

影响能够更有效地在现有和未来硬件上部署大型语言模型，可能降低推理成本。

排序理由主要硬件供应商对特定模型版本的量化，并附有详细的基准测试结果。[lever_c_demoted from research: ic=1 ai=1.0]

在 Mastodon — mastodon.social 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

NVIDIA 量化 Mistral Medium 3.5 以减少 GPU 内存占用

报道来源 [1]

Mastodon — mastodon.social TIER_1 Deutsch(DE) · aisyndicate · 2026-07-01 16:40

NVIDIA 使用 Model Optimizer v0.44.0 量化 Mistral Medium 3.5 (128B)。NVFP4 量化以最小的精度损失（例如 MM）减少 GPU 内存占用

NVIDIA quantisiert Mistral Medium 3.5 (128B) mit Model Optimizer v0.44.0. NVFP4-Quantisierung reduziert GPU-Speicher bei minimaler Genauigkeitsverluste (z.B. MMLU Pro 82.31% vs 82.20%). Serving via vLLM auf NVIDIA B200. https:// huggingface.co/nvidia/Mistral- Medium-3.5-128B-NVFP…

链接 huggingface.co/…/Mistral-Medium-3.5-128B-…

报道来源 [1]

NVIDIA 使用 Model Optimizer v0.44.0 量化 Mistral Medium 3.5 (128B)。NVFP4 量化以最小的精度损失（例如 MM）减少 GPU 内存占用

相关实体

相关话题