English(EN) A 9-point eval gain vanished when we deduped train against test

ML数据污染使Qwen3-8B模型性能虚增9个点

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-15 06:34

Nexus Labs的一个机器学习团队发现，他们微调的Qwen3-8B模型性能显著提升是由于数据污染造成的。该模型在票务路由任务上达到了80.4%的准确率，远高于基础模型的71.2%，但这种提升是虚假的。在使用MinHash LSH检测训练集和评估集之间的近乎重复条目后，他们发现大约6%的评估数据无意中被包含在了训练集中。在移除这些受污染的样本后，模型的真实准确率接近72%，表明微调过程的实际改进微乎其微。 AI

影响强调了在ML管道中进行严格数据验证的关键性，以防止性能指标虚高，并确保模型的真正泛化能力。

排序理由该条目详细介绍了一个在ML开发中常见但重要的问题：数据污染，并描述了一种检测和缓解该问题的方法（MinHash LSH），展示了实际应用中的发现。[lever_c_demoted from research: ic=1 ai=1.0]

在 dev.to — LLM tag 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

dev.to — LLM tag TIER_1 English(EN) · Marcus Chen · 2026-06-15 06:34

A 9-point eval gain vanished when we deduped train against test

<p><strong>TL;DR: We fine-tuned an 8B model for an enterprise ticket-routing task and saw accuracy jump from 71% to 80%. The gain was fake. Roughly 6% of our eval set had near-duplicates in the training data. After MinHash dedup, the real number was 72%. Contamination is the most…

报道来源 [1]

A 9-point eval gain vanished when we deduped train against test

相关实体

相关话题