llama.cpp 和 ik_llama.cpp 项目均已集成对 FP4(4位浮点)推理的支持,这是模型量化的一项重大进展。llama.cpp 现在包含 NVFP4,一种 Nvidia 特定的格式,而 ik_llama.cpp 支持 MXFP4,遵循 MX 联盟标准。预计这些进展将大幅降低 VRAM 需求,一旦模型支持跟上,就能在消费级硬件上运行更大的模型。 AI
影响 通过大幅降低 VRAM 需求,支持在消费级硬件上运行更大的语言模型。
排序理由 将新的量化格式(FP4)集成到流行的开源推理引擎中。
- Abiray-Qwen3.6-27B-NVFP4-GGUF
- AVX2
- CUDA
- GGML_TYPE_MXFP4
- GGML_TYPE_NVFP4
- Hugging Face
- ik_llama.cpp
- llama.cpp
- MX consortium
- MXFP4
- NEON
- NVFP4
- Nvidia
- Qwen3-1.7B-NVFP4A16
- Zen4
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →