新的GRASP方法改进了大规模预训练的数据归因

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-08 04:00

研究人员开发了GRASP，一种用于大规模预训练中数据归因的新颖方法。与以往的加性方法不同，GRASP通过二次几何惩罚来模拟子集动态和交互。这种交互感知代理旨在在大规模预训练中实现效率，使用低维特征草图和有限置信下界选择协议。评估表明，GRASP在子集再训练保真度方面显著优于现有方法，并降低了伪影构建成本，在语言模型策展和视觉数据集选择方面也展示了其效用。 AI

影响 GRASP提供了一种更有效、更具成本效益的方式来策展海量预训练数据集，有可能提高下游模型性能并降低计算成本。

排序理由该集群包含一篇研究论文，详细介绍了机器学习预训练中数据归因的新方法。

在 arXiv cs.LG 阅读 →

arXiv

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Yue Min, Ruining Chen, Yujun Li · 2026-06-08 04:00

GRASP：用于可扩展预训练数据归属的几何感知残差对齐

arXiv:2606.06892v1 Announce Type: new Abstract: Scalable data attribution methods typically assign isolated utility scores to individual training examples. This prevalent additive assumption fundamentally fails to capture critical subset dynamics, including data redundancy and co…

报道来源 [1]

GRASP：用于可扩展预训练数据归属的几何感知残差对齐

相关实体

相关话题