PulseAugur
实时 16:36:55

新方法解决了 NP-hard 的大规模数据集多样性选择问题

研究人员开发了一种名为 Spectral DPPs via NEPv 的新方法,以解决从大型数据集中选择多样化、高质量子集这一 NP-hard 问题。该方法将 Determinantal MAP 目标重塑为 Stiefel 流形上的连续优化问题,从而得到一个具有特征向量依赖性的非线性特征值问题 (NEPv)。提出的求解器 OurMethod 提供了一种可扩展的解决方案,可与常见的机器学习核集成,并且在候选池大小上接近线性扩展。 AI

影响 该方法可以提高训练大型 AI 模型的数据整理和子集选择的效率。

排序理由 该集群包含一篇学术论文,详细介绍了一种新的数据选择算法方法。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新方法解决了 NP-hard 的大规模数据集多样性选择问题

报道来源 [1]

  1. arXiv cs.LG TIER_1 English(EN) · Richard Yi Da Xu ·

    Spectral DPPs via NEPv: A Scalable Continuous Relaxation of Determinantal MAP for Diversity-Aware Data Selection

    arXiv:2606.19411v1 Announce Type: new Abstract: Selecting a small, diverse, high-quality subset from a massive pool of candidates is a recurring primitive in modern machine learning -- data curation and coreset selection for training and fine-tuning large models, active-learning …