English(EN) VLLM gives 5x speed of llama but quants not available (unsloth/gguf). What to do?

vLLM 加速与 Unsloth 量化在本地 LLM 上的冲突

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-28 14:58

一位 r/LocalLLaMA 子版块的用户希望结合 vLLM 的速度优势和 Unsloth 的量化能力。与标准的 Llama 实现（每秒 800-1000 个 token）相比，他们在使用 vLLM 时体验到了显著更快的推理速度（每秒 5k-10k 个 token）。然而，由于兼容性错误，他们无法将 Unsloth 的量化模型（特别是 GGUF 格式）与 vLLM 一起使用。 AI

影响用户可能会找到方法，通过结合不同的推理和量化技术来优化本地 LLM 的性能。

排序理由用户正在寻求帮助，以集成两个现有的本地 LLM 推理工具。

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

r/LocalLLaMA TIER_1 English(EN) · /u/superloser48 · 2026-05-28 14:58

VLLM 速度是 llama 的 5 倍，但量化版本不可用 (unsloth/gguf)。怎么办？

<table> <tr><td> <a href="https://www.reddit.com/r/LocalLLaMA/comments/1tq633w/vllm_gives_5x_speed_of_llama_but_quants_not/"> <img alt="VLLM gives 5x speed of llama but quants not available (unsloth/gguf). What to do?" src="https://preview.redd.it/nemkqy2y6w3h1.png?width=640&…

报道来源 [1]

VLLM 速度是 llama 的 5 倍，但量化版本不可用 (unsloth/gguf)。怎么办？

相关实体

相关话题