实体
GPTQ-Marlin
GPTQ-Marlin
PulseAugur coverage of GPTQ-Marlin — every cluster mentioning GPTQ-Marlin across labs, papers, and developer communities, ranked by signal.
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
0
90 天内 0
层级分布 · 90 天
主题
情绪 · 30 天
2 天有情绪数据
最近 · 第 1/1 页 · 共 2 条
-
开发者详述使用 vLLM 在 24GB 显存上本地部署 Qwen3.6-27B
一位开发者详细介绍了一个在 24GB 显卡(具体为 RTX 3090)上本地运行 Qwen3.6-27B 模型的配置方案。该配置利用 vLLM 进行高效服务,并采用 GPTQ-Marlin 量化方法来平衡长上下文、稳定的代理行为和可用的解码速度。该方案优先考虑单个高质量代理会话而非并行处理,最大上下文长度为 131,072 个 token。作者还概述了 Hermes 代理与 vLLM 端点交互的具体配置,强调了长超时和启用的思考能力以…
-
用户优化Qwen3.6-27B以在消费级GPU上实现长上下文
用户正在分享在消费级硬件上运行Qwen3.6-27B大型语言模型的优化设置,特别关注在有限的VRAM下最大化性能。讨论涵盖了各种量化方法、上下文窗口长度以及特定的软件配置,如llama.cpp、vLLM和Ollama,以在RTX 4090和RTX 3090等GPU上实现高吞吐量和长上下文能力。