PulseAugur
实时 15:27:43

新型1.58位大语言模型家族推理内存减少6倍

新一代大语言模型BitCPM-CANN家族采用了一种新颖的1.58位三元量化技术。这些模型参数量从0.5B到8B不等,显著减少了推理内存占用,约为全精度模型的六分之一。在华为Ascend NPU上进行的训练过程引入的开销极小,吞吐量仅下降5%。 AI

影响 通过显著减小内存占用,实现更高效的大语言模型部署。

排序理由 详细介绍新型量化技术及由此产生的模型的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 Hugging Face Trending Models 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新型1.58位大语言模型家族推理内存减少6倍

报道来源 [1]

  1. Hugging Face Trending Models TIER_1 Nederlands(NL) · openbmb ·

    openbmb/BitCPM-CANN-8B

    text-generation · 1,202 downloads · 63 likes