English(EN) FP4 inference in llama.cpp (NVFP4) and ik_llama.cpp (MXFP4) landed - Finally

llama.cpp 和 ik_llama.cpp 为节省 VRAM 添加 FP4 推理支持

作者 PulseAugur 编辑部 · [1 个来源] · 2026-04-25 15:42

llama.cpp 和 ik_llama.cpp 项目均已集成对 FP4（4位浮点）推理的支持，这是模型量化的一项重大进展。llama.cpp 现在包含 NVFP4，一种 Nvidia 特定的格式，而 ik_llama.cpp 支持 MXFP4，遵循 MX 联盟标准。预计这些进展将大幅降低 VRAM 需求，一旦模型支持跟上，就能在消费级硬件上运行更大的模型。 AI

影响通过大幅降低 VRAM 需求，支持在消费级硬件上运行更大的语言模型。

排序理由将新的量化格式（FP4）集成到流行的开源推理引擎中。

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

llama.cpp 和 ik_llama.cpp 为节省 VRAM 添加 FP4 推理支持

报道来源 [1]

r/LocalLLaMA TIER_1 English(EN) · /u/Usual-Carrot6352 · 2026-04-25 15:42

llama.cpp (NVFP4) 和 ik_llama.cpp (MXFP4) 中的 FP4 推理已上线 - 终于

<table> <tr><td> <a href="https://www.reddit.com/r/LocalLLaMA/comments/1svfjyv/fp4_inference_in_llamacpp_nvfp4_and_ik_llamacpp/"> <img alt="FP4 inference in llama.cpp (NVFP4) and ik_llama.cpp (MXFP4) landed - Finally" src="https://preview.redd.it/sslj9ea0tcxg1.png?width=140&h…

报道来源 [1]

llama.cpp (NVFP4) 和 ik_llama.cpp (MXFP4) 中的 FP4 推理已上线 - 终于

相关实体

相关话题