研究人员开发了FlashSinkhorn,一种新的GPU加速熵最优输运(EOT)求解器,可显著减少内存输入输出操作。通过重写稳定对数域Sinkhorn更新以模仿Transformer注意力中的归一化过程,FlashSinkhorn实现了融合内核,将数据流经片上SRAM。这种方法在A100 GPU上执行点云OT等任务时,与现有方法相比,前向传播速度提高了32倍,端到端速度提高了161倍。 AI
影响 这种IO感知的求解器可以加速各种依赖于最优输运的机器学习应用,可能提高效率和可扩展性。
排序理由 该集群包含一篇详细介绍机器学习任务新计算方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →