实体 GPTQ-Marlin

GPTQ-Marlin

PulseAugur coverage of GPTQ-Marlin — every cluster mentioning GPTQ-Marlin across labs, papers, and developer communities, ranked by signal.

总计 · 30天

2

90 天内 2

发布 · 30天

0

90 天内 0

论文 · 30天

0

90 天内 0

层级分布 · 90 天

主题

情绪 · 30 天

2 天有情绪数据

最近 · 第 1/1 页 · 共 2 条

TOOL · CL_106079 · Jun 19 · 18:47

开发者详述使用 vLLM 在 24GB 显存上本地部署 Qwen3.6-27B

一位开发者详细介绍了一个在 24GB 显卡（具体为 RTX 3090）上本地运行 Qwen3.6-27B 模型的配置方案。该配置利用 vLLM 进行高效服务，并采用 GPTQ-Marlin 量化方法来平衡长上下文、稳定的代理行为和可用的解码速度。该方案优先考虑单个高质量代理会话而非并行处理，最大上下文长度为 131,072 个 token。作者还概述了 Hermes 代理与 vLLM 端点交互的具体配置，强调了长超时和启用的思考能力以…
TOOL · CL_98376 · Jun 18 · 08:34

用户优化Qwen3.6-27B以在消费级GPU上实现长上下文

用户正在分享在消费级硬件上运行Qwen3.6-27B大型语言模型的优化设置，特别关注在有限的VRAM下最大化性能。讨论涵盖了各种量化方法、上下文窗口长度以及特定的软件配置，如llama.cpp、vLLM和Ollama，以在RTX 4090和RTX 3090等GPU上实现高吞吐量和长上下文能力。