English(EN) 125 tok/s for Qwen3.6 q4xl on 2x 4060ti is insane perf/dollar

Qwen3.6 模型在双 RTX 4060 Ti 设置下达到每秒 125 个 token

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-30 12:31

Reddit 的 r/LocalLLaMA 社区的一位用户分享了 Qwen3.6 模型令人印象深刻的性能指标，在双 RTX 4060 Ti 设置下，使用 q4xl 量化实现了每秒 125 个 token。该配置成本低于 1000 美元，功耗约为 300 瓦，据报道其性能优于 2026 年发布的更昂贵的迷你 PC。该用户正在探索进一步优化设置的方法，以达到每秒 150 个 token。 AI

影响展示了在本地运行大型语言模型的高性能和成本效益。

排序理由用户报告的在消费级硬件上运行开源模型的性能基准。 [lever_c_demoted from research: ic=1 ai=0.7]

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

Qwen3.6 模型在双 RTX 4060 Ti 设置下达到每秒 125 个 token

报道来源 [1]

r/LocalLLaMA TIER_1 English(EN) · /u/Chuyito · 2026-05-30 12:31

125 tok/s for Qwen3.6 q4xl on 2x 4060ti is insane perf/dollar

<table> <tr><td> <a href="https://www.reddit.com/r/LocalLLaMA/comments/1tryp2q/125_toks_for_qwen36_q4xl_on_2x_4060ti_is_insane/"> <img alt="125 tok/s for Qwen3.6 q4xl on 2x 4060ti is insane perf/dollar" src="https://preview.redd.it/3sthvqggm94h1.png?width=140&height=87&au…

报道来源 [1]

125 tok/s for Qwen3.6 q4xl on 2x 4060ti is insane perf/dollar

相关实体

相关话题