PulseAugur
实时 23:26:08
English(EN) Removing Noise, not Finding Gold: Quality Filtering for Large-Scale Pretraining

新研究质疑AI数据过滤方法的有效性

一篇新论文分析了分类器式质量过滤(CQF)——一种用于清洗预训练AI模型所用大型数据集的常用方法。研究人员Louis Béthune及其同事发现,虽然CQF能提高下游任务的性能,但它并不一定能增强高质量数据上的语言建模能力。他们的研究表明,CQF可能会隐式地过滤掉有价值的高质量数据,并对它能有效捕捉数据质量的说法提出了质疑。 AI

影响 挑战了关于大型语言模型数据清洗的普遍假设,可能影响未来的预训练方法。

排序理由 该集群包含一篇分析AI模型预训练中特定技术的学术论文。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新研究质疑AI数据过滤方法的有效性

报道来源 [1]

  1. arXiv cs.CL TIER_1 English(EN) · Thiziri Nait Saada, Louis Bethune, Michal Klein, David Grangier, Marco Cuturi, Pierre Ablin ·

    Removing Noise, not Finding Gold: Quality Filtering for Large-Scale Pretraining

    arXiv:2510.00866v3 Announce Type: replace-cross Abstract: Large-scale models are pretrained on massive web-crawled datasets containing documents of mixed quality, making data filtering essential. A popular method is Classifier-based Quality Filtering (CQF), which trains a binary …