PulseAugur
实时 05:49:31
English(EN) Here is my llama.cpp NVFP4/MXFP6 GGUF quantizer tool

新工具通过先进的 NVFP4/MXFP6 量化优化 llama.cpp 模型

一位开发者发布了一款先进的 llama.cpp 量化工具,旨在创建 NVFP4MXFP6 GGUF 模型。该工具超越了基础量化,通过评估各种方法并结合 RSF(精炼尺度拟合)等自定义技术来优化模型性能。它使用困惑度(perplexity)和 KLD 等指标对层进行单独评分,同时保守处理敏感张量,并在合理时将其提升到更高的精度。该项目还包括一个用于 NVIDIA Blackwell 架构的新 MXFP6 CUDA 实现。 AI

影响 通过改进各种模型格式的量化技术,实现更高效的本地 LLM 部署。

排序理由 这是一个用户开发的用于优化现有模型的工具,并非新模型发布或基础研究。

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. r/LocalLLaMA TIER_1 English(EN) · /u/ElectronicStranger53 ·

    我的 llama.cpp NVFP4/MXFP6 GGUF 量化工具

    <!-- SC_OFF --><div class="md"><p>Hello everyone</p> <p>I wanted to share what I've been working on. I started writing NVFP4 kernels for llama.cpp last year and needed the ability to quantize NVFP4 GGUFs, so this project started as an NVFP4 quantizer. It's since become much large…