研究人员开发了用于估计轮廓分数的新算法,轮廓分数是用于评估数据聚类质量的指标。轮廓的精确计算计算成本很高,需要进行 O(n^2) 次距离计算,这对于大型数据集来说是不可行的。所提出的方法使用采样来提供具有可控准确性和效率的估计,执行 O(nkε^{-2}ln(nk/δ)) 次距离计算。这些算法专为 MapReduce 和大规模并行计算 (MPC) 等可扩展和分布式框架而设计,利用恒定的轮次和次线性局部内存。 AI
影响 为评估聚类算法提供了更有效的方法,有可能改进依赖于数据分割的下游AI应用。
排序理由 详细介绍数据分析新算法的学术论文。[lever_c_demoted from research: ic=1 ai=0.7]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →