新的GRINQH框架提升LLM生成效率

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-22 14:42

研究人员开发了GRINQH，一个新颖的训练后量化框架，旨在提高大型语言模型（LLM）生成的效率，特别是在边缘计算方面。该方法根据激活幅度动态地为权重通道分配不同的精度级别，有效地统一了量化和稀疏化，以加速内存密集型的解码阶段。在Llama 3和Qwen3模型上进行测试时，GRINQH表现出优于现有方法的性能，甚至实现了有效的2位生成，并为LLM推理建立了新的最先进的帕累托前沿。 AI

影响该框架可以显著减少LLM推理所需的计算资源，使先进模型在边缘设备上更加易于访问。

排序理由该集群包含一篇详细介绍LLM效率新技术的框架的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Emre Neftci · 2026-06-22 14:42

GRINQH: Graded Input-based Quantization Hierarchy for Efficient LLM Generation

Autoregressive decoding with LLMs is primarily bottlenecked by GPU memory bandwidth, especially in edge-computing settings. While quantization is essential for mitigating this bottleneck, most existing methods treat inference as a uniform process and fail to account for the asymm…

报道来源 [1]

GRINQH: Graded Input-based Quantization Hierarchy for Efficient LLM Generation

相关实体

相关话题