PulseAugur
实时 09:25:36
(SO) Jetson AGX Orin 64GB: q8_0 good, q6_k bad

Jetson AGX Orin 64GB 使用 q8_0 量化可加快 LLM 预填充速度

一位用户在 r/LocalLLaMA 子版块分享了 Jetson AGX Orin 64GB 的性能观察结果,指出使用 q8_0 量化方法处理模型时,提示词处理速度明显快于 q6_kq4_k_xl。该用户在最近的 llama.cpp 构建版本上使用 Unsloth Qwen3.6-27B-MTP-GGUF 模型进行了测试,观察到 q8_0 的速度提升超过 20%。他们推测,Jetson 的 CUDA 核心可能没有针对该特定硬件上的较低量化级别进行良好优化,因为内存带宽似乎不是限制因素。 AI

影响 关于在 Jetson AGX Orin 等边缘设备上运行大型语言模型的性能见解。

排序理由 用户生成的关于特定硬件上模型量化性能的观察结果。[lever_c_demoted from research: ic=1 ai=0.7]

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. r/LocalLLaMA TIER_1 (SO) · /u/realblindseeker ·

    Jetson AGX Orin 64GB: q8_0 good, q6_k bad

    <!-- SC_OFF --><div class="md"><p>Just a quick observation for all three users of Jetson AGX Orin 64GB in this sub: q8_0 quant gives &gt;20% faster prefill (prompt processing) than q6_k, and 10% faster than q4_k_xl.</p> <p>Tested with Unsloth Qwen3.6-27B-MTP-GGUF on recent llama.…