一位用户在 r/LocalLLaMA 子版块分享了 Jetson AGX Orin 64GB 的性能观察结果,指出使用 q8_0 量化方法处理模型时,提示词处理速度明显快于 q6_k 和 q4_k_xl。该用户在最近的 llama.cpp 构建版本上使用 Unsloth Qwen3.6-27B-MTP-GGUF 模型进行了测试,观察到 q8_0 的速度提升超过 20%。他们推测,Jetson 的 CUDA 核心可能没有针对该特定硬件上的较低量化级别进行良好优化,因为内存带宽似乎不是限制因素。 AI
影响 关于在 Jetson AGX Orin 等边缘设备上运行大型语言模型的性能见解。
排序理由 用户生成的关于特定硬件上模型量化性能的观察结果。[lever_c_demoted from research: ic=1 ai=0.7]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →