Groq 开发了一种新颖的语言处理单元 (LPU),在大型语言模型 (LLM) 推理方面性能远超传统 GPU。与为图形设计并重新用于 AI 训练的 GPU 不同,Groq 的 LPU 是专门为满足 LLM 推理的需求而构建的。其关键创新在于使用片上 SRAM 存储模型权重,与 GPU 使用的高带宽内存 (HBM) 相比,提供了显著更高的内存带宽和更低的延迟。这种架构差异使得 Groq 的 LPU 能够以前所未有的速度从大型模型中提供响应,带来异常快速的体验。 AI
影响 Groq 的 LPU 架构可能为 LLM 推理硬件树立新标准,有可能挑战 GPU 的主导地位并加速实时 AI 应用。
排序理由 来自非前沿实验室的新型 AI 推理硬件架构。[lever_c_降级自显著:ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →