English(EN) Data Selection Through Iterative Self-Filtering for Vision-Language Settings

新的自过滤方法改进了视觉-语言模型的训练数据

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-22 17:11

研究人员引入了一种名为自过滤的新方法，用于提高用于训练视觉-语言模型的数据的质量。这种自举方法涉及一个CLIP模型在自选数据集上进行迭代训练，该数据集平衡了干净样本和来自整个分布的多样化数据。迭代过程优化了数据混合，从而在不需要额外数据或预训练模型的情况下提高了下游性能。 AI

影响该方法可以通过提高数据质量，从而更有效、更高效地训练视觉-语言模型。

排序理由关于AI模型训练中数据选择新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Aaron Courville · 2026-06-22 17:11

Data Selection Through Iterative Self-Filtering for Vision-Language Settings

The availability of large amounts of clean data is paramount to training neural networks. However, at large scales, manual oversight is impractical, resulting in sizeable datasets that can be very noisy. Attempts to mitigate this obstacle to producing performant vision-language m…