Reddit r/LocalLLaMA 子版块的一名用户正在就 Gemma 4 31B Q6 模型在双 9060 XT 显卡上运行时遇到的性能问题寻求建议。用户报告称,推理速度稳定在每秒 8-9 个 token 左右,他们认为这比其他讨论中预期的要慢。用户认为当前速度尚可使用,但希望在可能忽略了任何优化的情况下找到改进的方法。 AI
影响 有可能为拥有类似硬件配置的用户提高本地 LLM 推理速度。
排序理由 用户层面关于在消费级硬件上优化特定模型的讨论。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →