PulseAugur
实时 11:18:16
English(EN) A 9-point eval gain vanished when we deduped train against test

ML数据污染使Qwen3-8B模型性能虚增9个点

Nexus Labs的一个机器学习团队发现,他们微调的Qwen3-8B模型性能显著提升是由于数据污染造成的。该模型在票务路由任务上达到了80.4%的准确率,远高于基础模型的71.2%,但这种提升是虚假的。在使用MinHash LSH检测训练集和评估集之间的近乎重复条目后,他们发现大约6%的评估数据无意中被包含在了训练集中。在移除这些受污染的样本后,模型的真实准确率接近72%,表明微调过程的实际改进微乎其微。 AI

影响 强调了在ML管道中进行严格数据验证的关键性,以防止性能指标虚高,并确保模型的真正泛化能力。

排序理由 该条目详细介绍了一个在ML开发中常见但重要的问题:数据污染,并描述了一种检测和缓解该问题的方法(MinHash LSH),展示了实际应用中的发现。[lever_c_demoted from research: ic=1 ai=1.0]

在 dev.to — LLM tag 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. dev.to — LLM tag TIER_1 English(EN) · Marcus Chen ·

    A 9-point eval gain vanished when we deduped train against test

    <p><strong>TL;DR: We fine-tuned an 8B model for an enterprise ticket-routing task and saw accuracy jump from 71% to 80%. The gain was fake. Roughly 6% of our eval set had near-duplicates in the training data. After MinHash dedup, the real number was 72%. Contamination is the most…