PulseAugur
实时 11:32:47
English(EN) Scalable and Distributed Silhouette Approximation

新算法为大型数据集提供可扩展的轮廓近似

研究人员开发了用于估计轮廓分数的新算法,轮廓分数是用于评估数据聚类质量的指标。轮廓的精确计算在计算上非常昂贵,需要进行 O(n^2) 次距离计算,这对于大型数据集来说是难以承受的。所提出的方法使用采样来提供具有可控准确性和效率的估计,执行 O(nkε^{-2}ln(nk/δ)) 次距离计算。这些算法专为 MapReduce 和大规模并行计算 (MPC) 等可扩展和分布式框架而设计,利用恒定的轮次和次线性局部内存。 AI

影响 为评估聚类算法提供了更有效的方法,有可能改进依赖于数据分割的下游AI应用。

排序理由 详细介绍数据分析新算法的学术论文。[lever_c_demoted from research: ic=1 ai=0.7]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

新算法为大型数据集提供可扩展的轮廓近似

报道来源 [2]

  1. arXiv cs.LG TIER_1 English(EN) · Ilie Sarpe, Federico Altieri, Andrea Pietracaprina, Geppino Pucci, Fabio Vandin ·

    Scalable and Distributed Silhouette Approximation

    arXiv:2607.01993v1 Announce Type: cross Abstract: The silhouette is one of the most widely used measures to assess the quality of a $k$-clustering of a dataset of $n$ elements. Its evaluation requires no information beyond the clustering assignment. In addition, the silhouette is…

  2. arXiv cs.LG TIER_1 English(EN) · Fabio Vandin ·

    Scalable and Distributed Silhouette Approximation

    The silhouette is one of the most widely used measures to assess the quality of a $k$-clustering of a dataset of $n$ elements. Its evaluation requires no information beyond the clustering assignment. In addition, the silhouette is extremely easy to interpret, providing a score to…