新的GQLA注意力机制优化LLM以适应不同硬件

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-28 04:00

研究人员开发了Group-Query Latent Attention (GQLA)，这是一种新颖的注意力机制，旨在优化大型语言模型在不同硬件上的解码。GQLA提供两条代数上等价的解码路径，均来自一组训练好的权重：一条MQA-absorb路径适用于H100等高带宽硬件，另一条GQA路径适用于H20等商品GPU。这种适应性无需定制内核或重新训练即可实现高效推理，并支持张量并行。TransGQLA扩展允许将现有的GQA检查点转换为GQLA模型，显著压缩KV缓存。 AI

影响无需重新训练即可在更广泛的硬件上实现更高效的LLM推理。

排序理由这是一篇介绍LLM解码新技术的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Fanxu Meng · 2026-05-28 04:00

GQLA：用于硬件自适应大型语言模型解码的群组查询潜在注意力

arXiv:2605.15250v2 Announce Type: replace-cross Abstract: Multi-head Latent Attention (MLA), the attention used in DeepSeek-V2/V3, jointly compresses keys and values into a low-rank latent and matches the H100 roofline almost perfectly. Its trained weights, however, expose only o…

报道来源 [1]

GQLA：用于硬件自适应大型语言模型解码的群组查询潜在注意力

相关实体

相关话题