研究人员发现,基于分类器的质量过滤(一种用于整理大型语言模型预训练数据的常用技术)存在一个重大漏洞。他们的研究表明,模仿维基百科风格的简单内容重新格式化可以欺骗这些分类器,使其误判文档质量。这可能导致低质量数据被纳入训练语料库,从而影响模型性能。 AI
影响 突显了大型语言模型数据整理中一个潜在的缺陷,如果得不到解决,可能会影响模型质量。
排序理由 详细介绍一种常见AI技术新发现的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →