研究人员开发了UltraSketchLLM,一种将大型语言模型(LLM)压缩至每权重低于1比特的新颖方法。该技术利用数据草图显著降低GPU内存需求,实现了每权重0.5比特的压缩率。该方法还集成了硬件友好型算子,与标准的草图方法相比,速度提升了14.9倍,同时保持了可接受的性能下降和低延迟。 AI
影响 使得大型语言模型能够在资源受限的硬件上部署,可能扩大其可及性和应用范围。
排序理由 这是一篇描述LLM压缩新方法的学术论文。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →