新型1.58位大语言模型家族推理内存减少6倍

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-15 13:10

新一代大语言模型BitCPM-CANN家族采用了一种新颖的1.58位三元量化技术。这些模型参数量从0.5B到8B不等，显著减少了推理内存占用，约为全精度模型的六分之一。在华为Ascend NPU上进行的训练过程引入的开销极小，吞吐量仅下降5%。 AI

影响通过显著减小内存占用，实现更高效的大语言模型部署。

排序理由详细介绍新型量化技术及由此产生的模型的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

Hugging Face Trending Models TIER_1 Nederlands(NL) · openbmb · 2026-05-15 13:10

openbmb/BitCPM-CANN-8B

text-generation · 1,202 downloads · 63 likes