English(EN) FlashSinkhorn: IO-Aware Entropic Optimal Transport on GPU

FlashSinkhorn求解器加速GPU上的最优输运

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-22 04:00

研究人员开发了FlashSinkhorn，一种新的GPU加速熵最优输运（EOT）求解器，可显著减少内存输入输出操作。通过重写稳定对数域Sinkhorn更新以模仿Transformer注意力中的归一化过程，FlashSinkhorn实现了融合内核，将数据流经片上SRAM。这种方法在A100 GPU上执行点云OT等任务时，与现有方法相比，前向传播速度提高了32倍，端到端速度提高了161倍。 AI

影响这种IO感知的求解器可以加速各种依赖于最优输运的机器学习应用，可能提高效率和可扩展性。

排序理由该集群包含一篇详细介绍机器学习任务新计算方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Felix X. -F. Ye, Xingjie Li, An Yu, Ming-Ching Chang, Linsong Chu, Davis Wertheimer · 2026-05-22 04:00

FlashSinkhorn: GPU上的IO感知熵最优传输

arXiv:2602.03067v3 Announce Type: replace Abstract: Entropic optimal transport (EOT) via Sinkhorn iterations is widely used in modern machine learning, yet GPU solvers remain inefficient at scale. Tensorized implementations suffer quadratic HBM traffic from dense $n\times m$ inte…

报道来源 [1]

FlashSinkhorn: GPU上的IO感知熵最优传输

相关实体

相关话题