一篇新论文分析了分类器式质量过滤(CQF)——一种用于清洗预训练AI模型所用大型数据集的常用方法。研究人员Louis Béthune及其同事发现,虽然CQF能提高下游任务的性能,但它并不一定能增强高质量数据上的语言建模能力。他们的研究表明,CQF可能会隐式地过滤掉有价值的高质量数据,并对它能有效捕捉数据质量的说法提出了质疑。 AI
影响 挑战了关于大型语言模型数据清洗的普遍假设,可能影响未来的预训练方法。
排序理由 该集群包含一篇分析AI模型预训练中特定技术的学术论文。
- alphaXiv
- arXiv
- CatalyzeX
- Classifier-based Quality Filtering (CQF)
- DagsHub
- Gotit.pub
- Hugging Face
- IArxiv
- Louis Béthune
- ScienceCast
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →