PulseAugur
实时 08:05:43
实体 TransMLA

TransMLA

PulseAugur coverage of TransMLA — every cluster mentioning TransMLA across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_56286 ·

    新的GQLA注意力机制优化LLM以适应不同硬件

    研究人员开发了Group-Query Latent Attention (GQLA),这是一种新颖的注意力机制,旨在优化大型语言模型在不同硬件上的解码。GQLA提供两条代数上等价的解码路径,均来自一组训练好的权重:一条MQA-absorb路径适用于H100等高带宽硬件,另一条GQA路径适用于H20等商品GPU。这种适应性无需定制内核或重新训练即可实现高效推理,并支持张量并行。TransGQLA扩展允许将现有的GQA检查点转换为GQLA…