一位 Reddit r/LocalLLaMA 用户对 Unsloth 和 Bartowski 实现 MTP(多任务提示)技术在 Qwen 3.5-4B 和 9B 模型上的性能进行了比较。比较重点关注了不同量化级别(Q4_0、IQ4_NL、Q4_1、Q8_0)下的 VRAM 使用量和每秒 token 数。虽然两种实现都显示出相似的性能,但在某些测试中,Unsloth 通常使用的 VRAM 略少,吞吐量略高。 AI
影响 为优化本地 LLM 部署的用户提供了实用的性能数据。
排序理由 用户进行的基准测试,比较了开源模型的两种技术实现。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →