English(EN) Here is my llama.cpp NVFP4/MXFP6 GGUF quantizer tool

新工具通过先进的 NVFP4/MXFP6 量化优化 llama.cpp 模型

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-05 04:10

一位开发者发布了一款先进的 llama.cpp 量化工具，旨在创建 NVFP4 和 MXFP6 GGUF 模型。该工具超越了基础量化，通过评估各种方法并结合 RSF（精炼尺度拟合）等自定义技术来优化模型性能。它使用困惑度（perplexity）和 KLD 等指标对层进行单独评分，同时保守处理敏感张量，并在合理时将其提升到更高的精度。该项目还包括一个用于 NVIDIA Blackwell 架构的新 MXFP6 CUDA 实现。 AI

影响通过改进各种模型格式的量化技术，实现更高效的本地 LLM 部署。

排序理由这是一个用户开发的用于优化现有模型的工具，并非新模型发布或基础研究。

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

r/LocalLLaMA TIER_1 English(EN) · /u/ElectronicStranger53 · 2026-06-05 04:10

我的 llama.cpp NVFP4/MXFP6 GGUF 量化工具

<div class="md"><p>Hello everyone</p> <p>I wanted to share what I've been working on. I started writing NVFP4 kernels for llama.cpp last year and needed the ability to quantize NVFP4 GGUFs, so this project started as an NVFP4 quantizer. It's since become much large…

报道来源 [1]

我的 llama.cpp NVFP4/MXFP6 GGUF 量化工具

相关实体

相关话题