PulseAugur
实时 05:54:31
English(EN) 125 tok/s for Qwen3.6 q4xl on 2x 4060ti is insane perf/dollar

Qwen3.6 模型在双 RTX 4060 Ti 设置下达到每秒 125 个 token

Redditr/LocalLLaMA 社区的一位用户分享了 Qwen3.6 模型令人印象深刻的性能指标,在双 RTX 4060 Ti 设置下,使用 q4xl 量化实现了每秒 125 个 token。该配置成本低于 1000 美元,功耗约为 300 瓦,据报道其性能优于 2026 年发布的更昂贵的迷你 PC。该用户正在探索进一步优化设置的方法,以达到每秒 150 个 token。 AI

影响 展示了在本地运行大型语言模型的高性能和成本效益。

排序理由 用户报告的在消费级硬件上运行开源模型的性能基准。 [lever_c_demoted from research: ic=1 ai=0.7]

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

Qwen3.6 模型在双 RTX 4060 Ti 设置下达到每秒 125 个 token

报道来源 [1]

  1. r/LocalLLaMA TIER_1 English(EN) · /u/Chuyito ·

    125 tok/s for Qwen3.6 q4xl on 2x 4060ti is insane perf/dollar

    <table> <tr><td> <a href="https://www.reddit.com/r/LocalLLaMA/comments/1tryp2q/125_toks_for_qwen36_q4xl_on_2x_4060ti_is_insane/"> <img alt="125 tok/s for Qwen3.6 q4xl on 2x 4060ti is insane perf/dollar" src="https://preview.redd.it/3sthvqggm94h1.png?width=140&amp;height=87&amp;au…