PulseAugur
实时 06:21:32

新的GQLA注意力机制优化LLM以适应不同硬件

研究人员开发了Group-Query Latent Attention (GQLA),这是一种新颖的注意力机制,旨在优化大型语言模型在不同硬件上的解码。GQLA提供两条代数上等价的解码路径,均来自一组训练好的权重:一条MQA-absorb路径适用于H100等高带宽硬件,另一条GQA路径适用于H20等商品GPU。这种适应性无需定制内核或重新训练即可实现高效推理,并支持张量并行。TransGQLA扩展允许将现有的GQA检查点转换为GQLA模型,显著压缩KV缓存。 AI

影响 无需重新训练即可在更广泛的硬件上实现更高效的LLM推理。

排序理由 这是一篇介绍LLM解码新技术的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新的GQLA注意力机制优化LLM以适应不同硬件

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Fanxu Meng ·

    GQLA:用于硬件自适应大型语言模型解码的群组查询潜在注意力

    arXiv:2605.15250v2 Announce Type: replace-cross Abstract: Multi-head Latent Attention (MLA), the attention used in DeepSeek-V2/V3, jointly compresses keys and values into a low-rank latent and matches the H100 roofline almost perfectly. Its trained weights, however, expose only o…