(SO) Jetson AGX Orin 64GB: q8_0 good, q6_k bad

Jetson AGX Orin 64GB 使用 q8_0 量化可加快 LLM 预填充速度

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-04 07:54

一位用户在 r/LocalLLaMA 子版块分享了 Jetson AGX Orin 64GB 的性能观察结果，指出使用 q8_0 量化方法处理模型时，提示词处理速度明显快于 q6_k 和 q4_k_xl。该用户在最近的 llama.cpp 构建版本上使用 Unsloth Qwen3.6-27B-MTP-GGUF 模型进行了测试，观察到 q8_0 的速度提升超过 20%。他们推测，Jetson 的 CUDA 核心可能没有针对该特定硬件上的较低量化级别进行良好优化，因为内存带宽似乎不是限制因素。 AI

影响关于在 Jetson AGX Orin 等边缘设备上运行大型语言模型的性能见解。

排序理由用户生成的关于特定硬件上模型量化性能的观察结果。[lever_c_demoted from research: ic=1 ai=0.7]

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

Jetson AGX Orin 64GB 使用 q8_0 量化可加快 LLM 预填充速度

报道来源 [1]

r/LocalLLaMA TIER_1 (SO) · /u/realblindseeker · 2026-06-04 07:54

Jetson AGX Orin 64GB：q8_0 表现良好，q6_k 表现不佳

<div class="md"><p>Just a quick observation for all three users of Jetson AGX Orin 64GB in this sub: q8_0 quant gives >20% faster prefill (prompt processing) than q6_k, and 10% faster than q4_k_xl.</p> <p>Tested with Unsloth Qwen3.6-27B-MTP-GGUF on recent llama.…

报道来源 [1]

Jetson AGX Orin 64GB：q8_0 表现良好，q6_k 表现不佳

相关实体

相关话题