PulseAugur
实时 22:10:42
English(EN) ThriftAttention: Selective Mixed Precision for Long-Context FP4 Attention

ThriftAttention 通过选择性精度提升 AI 长上下文效率

研究人员开发了 ThriftAttention,一种提高 AI 模型长上下文注意力机制效率的新方法。该技术选择性地对关键的查询-键交互使用更高精度(FP16),而将大部分计算以更低、更高效的精度(FP4)执行。通过仅将 FP16 精度集中在约 5% 最重要的块上,ThriftAttention 显著减少了在长上下文场景中低比特精度通常会导致的质量下降,与完整的 FP16 相比,恢复了近 90% 的性能差距。 AI

影响 提高了长上下文 AI 模型的效率,可能降低推理成本,并使具有广泛内存的模型得到更广泛的应用。

排序理由 该集群包含一篇详细介绍提高 AI 模型效率新方法的学术论文。 [lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.LG TIER_1 English(EN) · Joe Sharratt ·

    ThriftAttention:长上下文FP4注意力机制的选择性混合精度

    arXiv:2605.23081v1 Announce Type: new Abstract: Efficient attention algorithms are critical to mitigate the quadratic cost of attention in long-context workloads. Prior work utilises block-scaled quantisation techniques on Blackwell GPUs to move attention computation to 4-bit pre…