PulseAugur
实时 18:37:12
English(EN) $1800 (in GPU cost running with P2P running Qwen/Qwen3.6-27b-FP8 with 262K context and BF16 KV cache at 55 tok/s

本地 LLM 设置在 1800 美元的 GPU 套件上实现 55 tok/s 和 262K 上下文

一位用户分享了他们本地运行 Qwen3.6-27B-FP8 模型的设置,实现了每秒 55 个 token 的速度,上下文窗口为 262K。该设置包括四块 16GB 5060 Ti GPU,启用了 P2P,GPU 硬件成本约为 1800 美元。此配置仅适用于推理,单用户应用程序。 AI

影响 展示了使用消费级硬件运行大上下文窗口的本地推理性能。

排序理由 用户分享的运行特定 LLM 的本地设置和性能指标。

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

本地 LLM 设置在 1800 美元的 GPU 套件上实现 55 tok/s 和 262K 上下文

报道来源 [1]

  1. r/LocalLLaMA TIER_1 English(EN) · /u/joorklee ·

    $1800 (in GPU cost running with P2P running Qwen/Qwen3.6-27b-FP8 with 262K context and BF16 KV cache at 55 tok/s

    <!-- SC_OFF --><div class="md"><p>Hey peeps, wanted to share what is possible for folks with an <strong>inference only single user</strong> use case with 1700 in GPU cost.</p> <p>Setup: 4x 5060 ti (16GB) with P2P</p> <p>If you are in the US and you keep an eye on facebook marketp…