PulseAugur
实时 09:28:32

FP8 attention精度问题分析,提出反向迭代与S=256缩放

一篇新的研究论文分析了FP8 attention计算中的精度挑战,特别关注当概率矩阵(P)被转换为FP8时的softmax概率矩阵。该研究发现了一种称为“P-collapse”的问题,它在正向KV迭代时发生,导致非sink概率值下溢。研究人员提出了一种解决方案,结合反向KV迭代和静态缩放因子S=256(2^8),以消除这种下溢并提高输出精度。 AI

影响 这项研究为优化attention机制的FP8精度提供了量化见解,可能提高大型模型训练和推理的效率。

排序理由 学术论文,详细介绍了对计算精度问题的新颖分析并提出了解决方案。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Reed Lau ·

    P-Cast FP8注意力中的精确度:Sink诱导的崩溃与S=2^8的最优性

    arXiv:2606.06521v1 Announce Type: cross Abstract: FP8 (E4M3) acceleration for attention computation offers significant throughput gains, but the 3-bit mantissa introduces precision challenges when the softmax probability matrix P is cast to FP8 before the P*V matrix multiplicatio…