一篇新的研究论文分析了FP8 attention计算中的精度挑战,特别关注当概率矩阵(P)被转换为FP8时的softmax概率矩阵。该研究发现了一种称为“P-collapse”的问题,它在正向KV迭代时发生,导致非sink概率值下溢。研究人员提出了一种解决方案,结合反向KV迭代和静态缩放因子S=256(2^8),以消除这种下溢并提高输出精度。 AI
影响 这项研究为优化attention机制的FP8精度提供了量化见解,可能提高大型模型训练和推理的效率。
排序理由 学术论文,详细介绍了对计算精度问题的新颖分析并提出了解决方案。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →