PulseAugur
实时 16:20:31
English(EN) Spike-Aware C++ INT8 Inference for Sparse Spiking Language Models on Commodity CPUs

新的C++运行时加速了CPU上稀疏脉冲语言模型的推理

研究人员开发了一种用于稀疏脉冲语言模型的C++推理运行时,显著提高了在商品化CPU上的性能。该新系统将稀疏二元脉冲状态视为基本单元,优化内存布局并使用INT8量化来实现更高的令牌解码速度。虽然与TinyLlama和Qwen2.5等现有模型相比,该系统展示了更高的吞吐量和更小的内存占用,但在WikiText-2基准测试中,感知尖峰的方法导致模型质量略有下降。 AI

影响 优化了稀疏脉冲模型的推理,可能有助于在边缘设备和本地系统上更有效地部署。

排序理由 该集群包含一篇学术论文,详细介绍了一种针对特定类型语言模型的新推理系统。

在 arXiv cs.NE (Neural & Evolutionary) 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

报道来源 [2]

  1. arXiv cs.AI TIER_1 English(EN) · Ting Liu ·

    面向稀疏脉冲语言模型的商品级CPU上的感知尖峰C++ INT8推理

    arXiv:2606.03026v1 Announce Type: cross Abstract: Spiking language models expose activation sparsity that dense Transformer runtimes do not directly exploit. This paper studies that property from a systems perspective. Building on the SymbolicLight V1 spike-gated language model f…

  2. arXiv cs.NE (Neural & Evolutionary) TIER_1 English(EN) · Ting Liu ·

    面向稀疏脉冲语言模型在商用CPU上进行感知尖峰的C++ INT8推理

    Spiking language models expose activation sparsity that dense Transformer runtimes do not directly exploit. This paper studies that property from a systems perspective. Building on the SymbolicLight V1 spike-gated language model family, we implement a C++ CPU inference runtime th…