Reddit 的 r/LocalLLaMA 社区的一位用户分享了 Qwen3.6 模型令人印象深刻的性能指标,在双 RTX 4060 Ti 设置下,使用 q4xl 量化实现了每秒 125 个 token。该配置成本低于 1000 美元,功耗约为 300 瓦,据报道其性能优于 2026 年发布的更昂贵的迷你 PC。该用户正在探索进一步优化设置的方法,以达到每秒 150 个 token。 AI
影响 展示了在本地运行大型语言模型的高性能和成本效益。
排序理由 用户报告的在消费级硬件上运行开源模型的性能基准。 [lever_c_demoted from research: ic=1 ai=0.7]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →