研究人员开发了TileMaxSim,这是一种新的面向IO的GPU内核,旨在显著加速多向量检索模型(如ColBERT)中使用的MaxSim评分过程。现有实现效率低下,仅利用了可用GPU带宽的一小部分。TileMaxSim通过采用多查询SRAM分块、维度分块和融合乘积量化评分来解决此问题,在NVIDIA H100 GPU上实现了高达80.2%的峰值HBM带宽。这带来了显著的速度提升,能够实现每秒对8200万份文档进行评分,并大大降低了检索任务的延迟。 AI
影响 显著加速检索模型性能,可能实现更快、更高效的AI驱动的搜索和推荐系统。
排序理由 该条目是一篇研究论文,详细介绍了一种用于提高信息检索中GPU性能的新技术方法。[lever_c_demoted from research: ic=1 ai=1.0]
在 arXiv cs.IR (Information Retrieval) 阅读 →
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →