English(EN) Running Gemma4 31b-it on vLLM 0.21.0 A100s (bad quality or what am I doing wrong)

用户在 vLLM 上对 Gemma 4 31B 的输出质量感到困扰

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-27 22:21

一位用户在使用 A100 GPU 上的 vLLM 本地运行 Google 的 Gemma 4 31B 模型时遇到问题，导致输出质量差且 JSON 输出格式错误。当通过 Google 的 API 访问相同的模型时，会产生正确的结构化输出。用户怀疑问题出在 vLLM 配置上，因为所有其他参数和模型的精度 (BF16) 都保持一致。 AI

影响解决特定的模型部署问题可能有助于其他面临类似配置挑战的用户。

排序理由用户报告了运行模型时遇到的特定工具 (vLLM) 问题，而非发布或重大行业事件。

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

r/LocalLLaMA TIER_1 English(EN) · /u/Thagor · 2026-05-27 22:21

在 vLLM 0.21.0 A100s 上运行 Gemma4 31b-it (质量差还是我哪里做错了)

<div class="md"><p>Okay fun time I got access to two Nvlinked A100s for some research project I benchmarked my work against the Gemma 4 31b-it available through Google, but my dataset is rather massive, so I need to run it on the "local" resources. Basica…

报道来源 [1]

在 vLLM 0.21.0 A100s 上运行 Gemma4 31b-it (质量差还是我哪里做错了)

相关实体

相关话题