研究人员开发了 SeedLM,一种用于大语言模型的新型训练后压缩技术,该技术利用伪随机生成器种子来编码模型权重。该方法旨在通过在推理过程中即时生成权重矩阵来降低大语言模型的高运行时成本,从而减少内存访问并提高内存密集型任务的速度。SeedLM 通过用计算换取更少的内存访问来实现这一点,并且显著的优点是不需要校准数据,在各种任务上都能很好地泛化,并且在显著的压缩水平下仍能保持与 FP16 基线相当的准确性。 AI
影响 这项压缩技术可以显著降低大语言模型的部署成本并提高其推理速度。
排序理由 这是一篇详细介绍大语言模型压缩新方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]
在 HN — machine learning stories 阅读 →
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →