研究人员开发了 Flash-GMM,这是一种专为 GPU 上高斯混合模型 (GMM) 高效计算而设计的新型融合 Triton 内核。该内核通过避免完全物化责任矩阵来显著降低内存需求,从而实现了 20 倍的速度提升,并使得在单个设备上处理比以往大 100 倍的数据集成为可能。Flash-GMM 已集成到近似最近邻搜索中,为 k-means 聚类提供了一种可行的替代方案,并提高了召回率。 AI
影响 加速大规模数据的 GMM 聚类,可能提高 ANN 搜索等应用的性能。
排序理由 该集群包含一篇详细介绍 GMM 聚类新内核的学术论文。
在 arXiv cs.IR (Information Retrieval) 阅读 →
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →