English(EN) The Quality-Utility Paradox: Why High-Reward Data Impairs Small Model Mathematical Reasoning

AI研究：高质量数据可能损害小型模型的数学推理能力

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-16 04:00

一篇新研究论文在将强大AI模型的知识提炼以提升小型模型数学推理能力的过程中，识别出了一个“质量-效用悖论”。研究发现，由更强大的“Oracle”模型精炼的数据，虽然在质量指标上得分更高，但与通过拒绝采样选择的数据相比，实际上会导致小型模型性能变差。这是因为Oracle精炼引入了分布漂移，增加了小型模型的适应成本。为解决此问题，研究人员提出了“风格对齐精炼”方法，该方法在逻辑修复与小型模型原生推理分布的兼容性之间取得平衡，从而提高效用。 AI

影响表明当前提升小型模型推理能力的方法可能适得其反，需要重新评估数据精炼策略。

排序理由发表在arXiv上的研究论文，详细介绍了AI模型训练方面的新发现。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Haolong Qian, Xianliang Yang, Yinuo ma, Lirong Che, Feng Lu, Ye Guo, Lei Song, Jiang Bian, Chun Yuan · 2026-06-16 04:00

The Quality-Utility Paradox: Why High-Reward Data Impairs Small Model Mathematical Reasoning

arXiv:2606.16152v1 Announce Type: new Abstract: Knowledge distillation from powerful reasoning models is widely used to improve Small Language Models (SLMs) on mathematical reasoning, often assuming that traces with higher reward model scores provide more useful supervision. We i…

报道来源 [1]

The Quality-Utility Paradox: Why High-Reward Data Impairs Small Model Mathematical Reasoning

相关实体

相关话题