PulseAugur
实时 06:59:55
English(EN) TileMaxSim: IO-Aware GPU MaxSim Scoring with Dimension Tiling and Fused Product Quantization

TileMaxSim内核将GPU检索模型速度提升220倍

研究人员开发了TileMaxSim,这是一种新的面向IO的GPU内核,旨在显著加速多向量检索模型(如ColBERT)中使用的MaxSim评分过程。现有实现效率低下,仅利用了可用GPU带宽的一小部分。TileMaxSim通过采用多查询SRAM分块、维度分块和融合乘积量化评分来解决此问题,在NVIDIA H100 GPU上实现了高达80.2%的峰值HBM带宽。这带来了显著的速度提升,能够实现每秒对8200万份文档进行评分,并大大降低了检索任务的延迟。 AI

影响 显著加速检索模型性能,可能实现更快、更高效的AI驱动的搜索和推荐系统。

排序理由 该条目是一篇研究论文,详细介绍了一种用于提高信息检索中GPU性能的新技术方法。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.IR (Information Retrieval) 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

TileMaxSim内核将GPU检索模型速度提升220倍

报道来源 [1]

  1. arXiv cs.IR (Information Retrieval) TIER_1 English(EN) · Ashutosh Sharma ·

    TileMaxSim: IO-Aware GPU MaxSim Scoring with Dimension Tiling and Fused Product Quantization

    Multi-vector retrieval models such as ColBERT achieve state-of-the-art accuracy through fine-grained token-level MaxSim scoring, yet existing GPU implementations leave most hardware performance unused. We give a roofline analysis of MaxSim on modern GPUs and identify a severe ban…