研究人员开发了一个名为“this http URL”的软件栈,可在CPU上实现1位大型语言模型(LLM),如BitNet b1.58的快速、无损推理。这种新基础设施在x86 CPU上实现了2.37倍至6.17倍的速度提升,在ARM CPU上实现了1.37倍至5.07倍的速度提升,具体取决于模型大小。目标是使LLM更高效,并能在更广泛的设备上部署。 AI
影响 能够更高效、更广泛地在消费级硬件上部署LLM。
排序理由 学术论文,详细介绍了用于高效1位LLM推理的新软件栈。
在 HN — AI infrastructure stories 阅读 →
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →