研究人员开发了Group-Query Latent Attention (GQLA),这是一种新颖的注意力机制,旨在优化大型语言模型在不同硬件上的解码。GQLA提供两条代数上等价的解码路径,均来自一组训练好的权重:一条MQA-absorb路径适用于H100等高带宽硬件,另一条GQA路径适用于H20等商品GPU。这种适应性无需定制内核或重新训练即可实现高效推理,并支持张量并行。TransGQLA扩展允许将现有的GQA检查点转换为GQLA模型,显著压缩KV缓存。 AI
影响 无需重新训练即可在更广泛的硬件上实现更高效的LLM推理。
排序理由 这是一篇介绍LLM解码新技术的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →