English(EN) Nvidia H100(94GB VRAM) - should I run llama.cpp or vllm for 30 users inference?

Nvidia H100用户就30用户推理寻求llama.cpp与vLLM的建议

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-27 14:54

一位用户正在寻求关于在配备94GB VRAM的Nvidia H100 GPU上优化大型语言模型推理的建议。他们的目标是支持多达30个用户，重点关注大型上下文窗口和用于编码任务的并发使用。用户正在权衡使用llama.cpp和vLLM，并正在寻找关于模型量化和用于并发用户性能的基准测试工具的建议。 AI

影响为高端硬件上的LLM推理优化提供指导。

排序理由用户正在就使用特定推理工具的技术建议进行咨询。

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

r/LocalLLaMA TIER_1 English(EN) · /u/Rabooooo · 2026-05-27 14:54

Nvidia H100(94GB VRAM) - 30个用户推理应该运行llama.cpp还是vllm？

<div class="md"><p>I was given the great opportunity to borrow a H100 with 94GB VRAM at work until it is needed by a customer. (No idea how much system ram I will get, but I guess they are a bit flexible on this).</p> <p>- I want to build a inference endpoint that …

报道来源 [1]

Nvidia H100(94GB VRAM) - 30个用户推理应该运行llama.cpp还是vllm？

相关实体

相关话题