研究人员发现,当输入数据“可预测”时,GPU上的矩阵乘法可以执行得更快。最初,一个名为CUTLASS的项目显示比NVIDIA的CuBLAS提高了10%的性能。然而,当在Python中进行基准测试时,这种提升消失了。进一步的调查显示,CUTLASS的分析器默认使用整数初始化的输入,这导致了观察到的加速。当将零初始化的矩阵与随机初始化的矩阵进行比较时,零初始化的矩阵产生了显著更高的Teraflops,这表明数据内容本身会影响matmul性能。 AI
影响 这一发现可能通过利用数据特性来提高GPU效率,从而实现AI训练和推理的优化。
排序理由 该集群讨论了关于GPU性能与数据可预测性相关的令人惊讶的研究发现,而不是产品发布或重大行业事件。
在 Hacker News — AI stories ≥50 points 阅读 →
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →