English(EN) Is a Document Educational or Just Wikipedia-Style? -- Pitfalls of Classifier-Based Quality Filtering

分类器质量过滤易受维基百科式重新格式化影响

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-25 04:00

研究人员发现，基于分类器的质量过滤（一种用于整理大型语言模型预训练数据的常用技术）存在一个重大漏洞。他们的研究表明，模仿维基百科风格的简单内容重新格式化可以欺骗这些分类器，使其误判文档质量。这可能导致低质量数据被纳入训练语料库，从而影响模型性能。 AI

影响突显了大型语言模型数据整理中一个潜在的缺陷，如果得不到解决，可能会影响模型质量。

排序理由详细介绍一种常见AI技术新发现的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Mateusz Klimaszewski, Piotr Andruszkiewicz · 2026-05-25 04:00

一份文件是教育性的还是仅仅是维基百科风格的？——基于分类器的质量过滤的陷阱

arXiv:2605.23721v1 Announce Type: new Abstract: Classifier-based Quality Filtering has recently emerged as a fundamental technique in constructing pre-training corpora. The ability to deploy a single model that can replace or supplement a set of heuristics has proven effective ac…