FP8 attention精度问题分析，提出反向迭代与S=256缩放

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-08 04:00

一篇新的研究论文分析了FP8 attention计算中的精度挑战，特别关注当概率矩阵（P）被转换为FP8时的softmax概率矩阵。该研究发现了一种称为“P-collapse”的问题，它在正向KV迭代时发生，导致非sink概率值下溢。研究人员提出了一种解决方案，结合反向KV迭代和静态缩放因子S=256（2^8），以消除这种下溢并提高输出精度。 AI

影响这项研究为优化attention机制的FP8精度提供了量化见解，可能提高大型模型训练和推理的效率。

排序理由学术论文，详细介绍了对计算精度问题的新颖分析并提出了解决方案。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Reed Lau · 2026-06-08 04:00

P-Cast FP8注意力中的精确度：Sink诱导的崩溃与S=2^8的最优性

arXiv:2606.06521v1 Announce Type: cross Abstract: FP8 (E4M3) acceleration for attention computation offers significant throughput gains, but the 3-bit mantissa introduces precision challenges when the softmax probability matrix P is cast to FP8 before the P*V matrix multiplicatio…

报道来源 [1]

P-Cast FP8注意力中的精确度：Sink诱导的崩溃与S=2^8的最优性

相关实体

相关话题