PulseAugur
实时 03:56:32
English(EN) FlashSinkhorn: IO-Aware Entropic Optimal Transport on GPU

FlashSinkhorn求解器加速GPU上的最优输运

研究人员开发了FlashSinkhorn,一种新的GPU加速熵最优输运(EOT)求解器,可显著减少内存输入输出操作。通过重写稳定对数域Sinkhorn更新以模仿Transformer注意力中的归一化过程,FlashSinkhorn实现了融合内核,将数据流经片上SRAM。这种方法在A100 GPU上执行点云OT等任务时,与现有方法相比,前向传播速度提高了32倍,端到端速度提高了161倍。 AI

影响 这种IO感知的求解器可以加速各种依赖于最优输运的机器学习应用,可能提高效率和可扩展性。

排序理由 该集群包含一篇详细介绍机器学习任务新计算方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.LG TIER_1 English(EN) · Felix X. -F. Ye, Xingjie Li, An Yu, Ming-Ching Chang, Linsong Chu, Davis Wertheimer ·

    FlashSinkhorn: GPU上的IO感知熵最优传输

    arXiv:2602.03067v3 Announce Type: replace Abstract: Entropic optimal transport (EOT) via Sinkhorn iterations is widely used in modern machine learning, yet GPU solvers remain inefficient at scale. Tensorized implementations suffer quadratic HBM traffic from dense $n\times m$ inte…