English(EN) Are Full Rollouts Necessary for On-Policy Distillation?

新方法提高 AI 训练效率以实现长时推理

作者 PulseAugur 编辑部 · [2 个来源] · 2026-05-29 16:12

研究人员开发了新方法，以提高按策略蒸馏（OPD）在长时推理任务中训练 AI 模型的效率。标准的 OPD 需要全量回滚，这在计算上成本高昂，并且在训练早期可能提供不可靠的反馈。提出的技术，渐进式 OPD（POPD）和截断式 OPD（TOPD），优化了回滚范围。POPD 在训练过程中逐渐增加回滚长度，而 TOPD 则仅使用回滚范围的一小部分。实验表明，POPD 可将训练效率提高高达三倍，而 TOPD 在计算资源显著减少的情况下实现了可比的性能。 AI

影响优化 AI 训练以实现复杂推理任务，可能降低计算成本并加速开发。

排序理由这是一篇详细介绍 AI 训练新方法的学术论文。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.CL TIER_1 English(EN) · Yaocheng Zhang, Jiajun Chai, Songjun Tu, Yuqian Fu, Xiaohan Wang, Wei Lin, Guojun Yin, Qichao Zhang, Yuanheng Zhu, Dongbin Zhao · 2026-06-01 04:00

基于策略的蒸馏需要完全推出吗？

arXiv:2605.31490v1 Announce Type: new Abstract: On-policy distillation (OPD) provides dense teacher feedback along rollouts generated by the student and has emerged as a promising post-training paradigm for long-horizon reasoning. However, standard OPD typically generates full ro…
arXiv cs.CL TIER_1 English(EN) · Dongbin Zhao · 2026-05-29 16:12

基于策略的蒸馏需要完全推出吗？

On-policy distillation (OPD) provides dense teacher feedback along rollouts generated by the student and has emerged as a promising post-training paradigm for long-horizon reasoning. However, standard OPD typically generates full rollouts during training, which is computationally…

报道来源 [2]

基于策略的蒸馏需要完全推出吗？

基于策略的蒸馏需要完全推出吗？

相关实体

相关话题