PulseAugur
实时 14:46:14
English(EN) How do I improve my T/S

用户寻求在高配置笔记本上提升本地LLM速度

一位用户在 r/LocalLLaMA 子版块上寻求有关如何提高其本地大型语言模型设置的推理速度的建议。尽管他拥有一台配备强大 RTX 5070 Ti GPU(12GB VRAM)、32GB RAM 和高端 Intel Core Ultra 9 处理器的笔记本电脑,但使用 Qwen3.6-35B-A3B-Q6_K_P 模型时,他的速度仅为每秒 37 个 token。他已经尝试了 llama.cpp 的各种命令行参数,包括不同的量化级别和上下文大小,但没有找到显著的改进。 AI

影响 运行本地LLM的用户可能会面临类似的性能挑战,并可以从本次讨论中分享的建议中学习。

排序理由 用户正在就与运行本地LLM相关的技术问题寻求建议,这属于评论/讨论类别,而不是新发布或重大事件。

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. r/LocalLLaMA TIER_1 English(EN) · /u/KneelB4S8n ·

    如何提高我的T/S

    <!-- SC_OFF --><div class="md"><p>I have a laptop with 5070 Ti (12GB VRAM), 32Gb of ram, Intel core ultra 9 275HX and Windows 11 amd I am using llama-server. </p> <p>I see people with 6 GB of VRAM running MoEs with 30-40 t/s but I cannot push my Qwen3.6-35B-A3B-Q6\_K\_P above 37 …