一位用户分享了他们本地运行 Qwen3.6-27B-FP8 模型的设置,实现了每秒 55 个 token 的速度,上下文窗口为 262K。该设置包括四块 16GB 5060 Ti GPU,启用了 P2P,GPU 硬件成本约为 1800 美元。此配置仅适用于推理,单用户应用程序。 AI
影响 展示了使用消费级硬件运行大上下文窗口的本地推理性能。
排序理由 用户分享的运行特定 LLM 的本地设置和性能指标。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →