一篇新研究论文在将强大AI模型的知识提炼以提升小型模型数学推理能力的过程中,识别出了一个“质量-效用悖论”。研究发现,由更强大的“Oracle”模型精炼的数据,虽然在质量指标上得分更高,但与通过拒绝采样选择的数据相比,实际上会导致小型模型性能变差。这是因为Oracle精炼引入了分布漂移,增加了小型模型的适应成本。为解决此问题,研究人员提出了“风格对齐精炼”方法,该方法在逻辑修复与小型模型原生推理分布的兼容性之间取得平衡,从而提高效用。 AI
影响 表明当前提升小型模型推理能力的方法可能适得其反,需要重新评估数据精炼策略。
排序理由 发表在arXiv上的研究论文,详细介绍了AI模型训练方面的新发现。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →