一篇新发表在arXiv上的研究论文探讨了AI中“模型崩溃”的现象,当在合成数据上进行递归训练导致模型输出同质化和分布尾部侵蚀时,就会发生这种情况。该论文表明,通常用作补救措施的样本选择,在数据孤立且参考分布存在偏差时,会适得其反地加速模型崩溃。这个问题在医疗或金融等无法汇集数据的低资源环境中尤为重要。研究人员提出使用来自多个孤立数据的协作代理参考作为初步缓解策略,以减少多样性退化。 AI
影响 强调了AI训练管道中潜在的陷阱,尤其是在数据稀缺或孤立的环境中,并敦促谨慎使用合成数据和样本选择方法。
排序理由 该集群包含一篇详细介绍AI模型训练新发现的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →