一位 Reddit 用户详细介绍了如何在 RTX 3060 12GB 显卡上运行具有 128K 上下文窗口的 Qwen3.6-35B-A3B-APEX 模型。这是通过利用 llama-cpp 的一个分支,并结合 spiritbuun 的 CUDA 优化和 mudler 的 APEX 量化来实现的。该设置在上下文填充 72,000 个 token 时,可实现每秒 37 个 token 的生成速度,并且模型在“针尖麦芒”测试中达到了 100% 的检索率。 AI
影响 展示了在消费级 GPU 上高效本地运行大上下文模型,降低了实验门槛。
排序理由 用户驱动的在消费级硬件上对开源模型的优化和基准测试。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →