PulseAugur
实时 16:16:18
English(EN) VLLM gives 5x speed of llama but quants not available (unsloth/gguf). What to do?

vLLM 加速与 Unsloth 量化在本地 LLM 上的冲突

一位 r/LocalLLaMA 子版块的用户希望结合 vLLM 的速度优势和 Unsloth 的量化能力。与标准的 Llama 实现(每秒 800-1000 个 token)相比,他们在使用 vLLM 时体验到了显著更快的推理速度(每秒 5k-10k 个 token)。然而,由于兼容性错误,他们无法将 Unsloth 的量化模型(特别是 GGUF 格式)与 vLLM 一起使用。 AI

影响 用户可能会找到方法,通过结合不同的推理和量化技术来优化本地 LLM 的性能。

排序理由 用户正在寻求帮助,以集成两个现有的本地 LLM 推理工具。

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

vLLM 加速与 Unsloth 量化在本地 LLM 上的冲突

报道来源 [1]

  1. r/LocalLLaMA TIER_1 English(EN) · /u/superloser48 ·

    VLLM gives 5x speed of llama but quants not available (unsloth/gguf). What to do?

    <table> <tr><td> <a href="https://www.reddit.com/r/LocalLLaMA/comments/1tq633w/vllm_gives_5x_speed_of_llama_but_quants_not/"> <img alt="VLLM gives 5x speed of llama but quants not available (unsloth/gguf). What to do?" src="https://preview.redd.it/nemkqy2y6w3h1.png?width=640&amp;…