一位用户已成功在 Intel Arc B70 Pro GPU 上运行 Qwen 3.6-35B-A3B 模型,并取得了令人印象深刻的性能指标。该设置使用了带有 SYCL 后端的 llama.cpp,实现了每秒 977 个 token 的提示处理速度,并支持 262,000 个 token 的上下文窗口。此配置使用户能够开发一个功能齐全的扑克游戏,而没有遇到模型循环或崩溃等问题。 AI
影响 展示了在消费级 GPU 上进行本地 LLM 推理的高性能,可能降低了高级 AI 应用的入门门槛。
排序理由 用户报告的特定模型在消费级硬件上的基准测试和设置。[lever_c_demoted from research: ic=1 ai=0.7]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →