English(EN) Qwen 3.6-35B-A3B with 977 tk/s prompt processing and 262k context window on Intel Arc B70 Pro

Qwen 3.6-35B-A3B 模型在 Intel Arc GPU 上达到 977 tk/s

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-02 08:32

一位用户已成功在 Intel Arc B70 Pro GPU 上运行 Qwen 3.6-35B-A3B 模型，并取得了令人印象深刻的性能指标。该设置使用了带有 SYCL 后端的 llama.cpp，实现了每秒 977 个 token 的提示处理速度，并支持 262,000 个 token 的上下文窗口。此配置使用户能够开发一个功能齐全的扑克游戏，而没有遇到模型循环或崩溃等问题。 AI

影响展示了在消费级 GPU 上进行本地 LLM 推理的高性能，可能降低了高级 AI 应用的入门门槛。

排序理由用户报告的特定模型在消费级硬件上的基准测试和设置。[lever_c_demoted from research: ic=1 ai=0.7]

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

Qwen 3.6-35B-A3B 模型在 Intel Arc GPU 上达到 977 tk/s

报道来源 [1]

r/LocalLLaMA TIER_1 English(EN) · /u/Atomynos_Atom · 2026-06-02 08:32

Qwen 3.6-35B-A3B 在 Intel Arc B70 Pro 上实现 977 tk/s 提示处理和 262k 上下文窗口

<table> <tr><td> <a href="https://www.reddit.com/r/LocalLLaMA/comments/1tukrtf/qwen_3635ba3b_with_977_tks_prompt_processing_and/"> <img alt="Qwen 3.6-35B-A3B with 977 tk/s prompt processing and 262k context window on Intel Arc B70 Pro" src="https://external-preview.redd.it/o_M4YH…

报道来源 [1]

Qwen 3.6-35B-A3B 在 Intel Arc B70 Pro 上实现 977 tk/s 提示处理和 262k 上下文窗口

相关实体

相关话题