研究人员开发了一种名为CRAFT(Clustered Regression for Adaptive Filtering of Training data)的新方法,用于高效地为序列到序列模型选择高质量的训练数据子集。该方法分解了联合源-目标分布,并使用两阶段选择过程来匹配验证分布并最小化预期距离。CRAFT在英-印翻译任务中表现出显著的改进,取得了比现有方法更高的BLEU分数,同时大大缩短了选择时间。 AI
影响 通过能够快速选择最优训练数据子集,加速了序列到序列模型的微调。
排序理由 关于训练数据选择新方法的学术论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →