PulseAugur
实时 14:31:03

新的GRINQH框架提升LLM生成效率

研究人员开发了GRINQH,一个新颖的训练后量化框架,旨在提高大型语言模型(LLM)生成的效率,特别是在边缘计算方面。该方法根据激活幅度动态地为权重通道分配不同的精度级别,有效地统一了量化和稀疏化,以加速内存密集型的解码阶段。在Llama 3和Qwen3模型上进行测试时,GRINQH表现出优于现有方法的性能,甚至实现了有效的2位生成,并为LLM推理建立了新的最先进的帕累托前沿。 AI

影响 该框架可以显著减少LLM推理所需的计算资源,使先进模型在边缘设备上更加易于访问。

排序理由 该集群包含一篇详细介绍LLM效率新技术的框架的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新的GRINQH框架提升LLM生成效率

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Emre Neftci ·

    GRINQH: Graded Input-based Quantization Hierarchy for Efficient LLM Generation

    Autoregressive decoding with LLMs is primarily bottlenecked by GPU memory bandwidth, especially in edge-computing settings. While quantization is essential for mitigating this bottleneck, most existing methods treat inference as a uniform process and fail to account for the asymm…