研究人员开发了新的方法来压缩大型语言模型(LLMs)生成的文本,在无损和有损压缩方面都取得了显著的进步。通过调整 LoRA 适配器以实现无损压缩,他们将基于 LLM 的算术编码的性能提高了一倍。对于有损压缩,引入了一种名为问答(QA)压缩的新型交互式协议,其中一个较小的模型向一个较大的模型提出是/否问题以优化其响应。这种 QA 方法实现了比以前基于 LLM 的技术小 100 多倍的压缩比,有效地以最少的数据转移了知识。 AI
影响 新的压缩技术可以通过实现更有效的知识转移,显著降低部署 LLM 的成本和延迟。
排序理由 该集群包含一篇详细介绍 LLM 压缩技术新研究的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →