PulseAugur
实时 08:50:20
English(EN) FP4 inference in llama.cpp (NVFP4) and ik_llama.cpp (MXFP4) landed - Finally

llama.cpp 和 ik_llama.cpp 为节省 VRAM 添加 FP4 推理支持

llama.cppik_llama.cpp 项目均已集成对 FP4(4位浮点)推理的支持,这是模型量化的一项重大进展。llama.cpp 现在包含 NVFP4,一种 Nvidia 特定的格式,而 ik_llama.cpp 支持 MXFP4,遵循 MX 联盟标准。预计这些进展将大幅降低 VRAM 需求,一旦模型支持跟上,就能在消费级硬件上运行更大的模型。 AI

影响 通过大幅降低 VRAM 需求,支持在消费级硬件上运行更大的语言模型。

排序理由 将新的量化格式(FP4)集成到流行的开源推理引擎中。

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

llama.cpp 和 ik_llama.cpp 为节省 VRAM 添加 FP4 推理支持

报道来源 [1]

  1. r/LocalLLaMA TIER_1 English(EN) · /u/Usual-Carrot6352 ·

    FP4 inference in llama.cpp (NVFP4) and ik_llama.cpp (MXFP4) landed - Finally

    <table> <tr><td> <a href="https://www.reddit.com/r/LocalLLaMA/comments/1svfjyv/fp4_inference_in_llamacpp_nvfp4_and_ik_llamacpp/"> <img alt="FP4 inference in llama.cpp (NVFP4) and ik_llama.cpp (MXFP4) landed - Finally" src="https://preview.redd.it/sslj9ea0tcxg1.png?width=140&amp;h…