研究人员推出了一种新颖的稀疏注意力机制STS,旨在加速大型语言模型(LLM)的推理,而无需进行模型重新训练。STS利用一个较小的草稿模型来预测重要代币,然后指导较大目标模型的稀疏性掩码。这种方法集成到投机解码中,在NarrativeQA基准测试上实现了2.67倍的速度提升,稀疏度约为90%,同时保持了准确性。 AI
影响 能够实现更快的LLM推理和更长序列的处理,可能加速代理应用。
排序理由 该集群包含一篇详细介绍提高AI模型效率的新颖方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →