English(EN) Removing Noise, not Finding Gold: Quality Filtering for Large-Scale Pretraining

新研究质疑AI数据过滤方法的有效性

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-24 04:00

一篇新论文分析了分类器式质量过滤（CQF）——一种用于清洗预训练AI模型所用大型数据集的常用方法。研究人员Louis Béthune及其同事发现，虽然CQF能提高下游任务的性能，但它并不一定能增强高质量数据上的语言建模能力。他们的研究表明，CQF可能会隐式地过滤掉有价值的高质量数据，并对它能有效捕捉数据质量的说法提出了质疑。 AI

影响挑战了关于大型语言模型数据清洗的普遍假设，可能影响未来的预训练方法。

排序理由该集群包含一篇分析AI模型预训练中特定技术的学术论文。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Thiziri Nait Saada, Louis Bethune, Michal Klein, David Grangier, Marco Cuturi, Pierre Ablin · 2026-06-24 04:00

Removing Noise, not Finding Gold: Quality Filtering for Large-Scale Pretraining

arXiv:2510.00866v3 Announce Type: replace-cross Abstract: Large-scale models are pretrained on massive web-crawled datasets containing documents of mixed quality, making data filtering essential. A popular method is Classifier-based Quality Filtering (CQF), which trains a binary …

报道来源 [1]

Removing Noise, not Finding Gold: Quality Filtering for Large-Scale Pretraining

相关实体

相关话题