研究人员开发了一种用于稀疏脉冲语言模型的C++推理运行时,显著提高了在商品化CPU上的性能。该新系统将稀疏二元脉冲状态视为基本单元,优化内存布局并使用INT8量化来实现更高的令牌解码速度。虽然与TinyLlama和Qwen2.5等现有模型相比,该系统展示了更高的吞吐量和更小的内存占用,但在WikiText-2基准测试中,感知尖峰的方法导致模型质量略有下降。 AI
影响 优化了稀疏脉冲模型的推理,可能有助于在边缘设备和本地系统上更有效地部署。
排序理由 该集群包含一篇学术论文,详细介绍了一种针对特定类型语言模型的新推理系统。
在 arXiv cs.NE (Neural & Evolutionary) 阅读 →
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →