PulseAugur
实时 14:28:56
English(EN) Are Full Rollouts Necessary for On-Policy Distillation?

新方法提高 AI 训练效率以实现长时推理

研究人员开发了新方法,以提高按策略蒸馏(OPD)在长时推理任务中训练 AI 模型的效率。标准的 OPD 需要全量回滚,这在计算上成本高昂,并且在训练早期可能提供不可靠的反馈。提出的技术,渐进式 OPD(POPD)和截断式 OPD(TOPD),优化了回滚范围。POPD 在训练过程中逐渐增加回滚长度,而 TOPD 则仅使用回滚范围的一小部分。实验表明,POPD 可将训练效率提高高达三倍,而 TOPD 在计算资源显著减少的情况下实现了可比的性能。 AI

影响 优化 AI 训练以实现复杂推理任务,可能降低计算成本并加速开发。

排序理由 这是一篇详细介绍 AI 训练新方法的学术论文。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

报道来源 [2]

  1. arXiv cs.CL TIER_1 English(EN) · Yaocheng Zhang, Jiajun Chai, Songjun Tu, Yuqian Fu, Xiaohan Wang, Wei Lin, Guojun Yin, Qichao Zhang, Yuanheng Zhu, Dongbin Zhao ·

    基于策略的蒸馏需要完全推出吗?

    arXiv:2605.31490v1 Announce Type: new Abstract: On-policy distillation (OPD) provides dense teacher feedback along rollouts generated by the student and has emerged as a promising post-training paradigm for long-horizon reasoning. However, standard OPD typically generates full ro…

  2. arXiv cs.CL TIER_1 English(EN) · Dongbin Zhao ·

    基于策略的蒸馏需要完全推出吗?

    On-policy distillation (OPD) provides dense teacher feedback along rollouts generated by the student and has emerged as a promising post-training paradigm for long-horizon reasoning. However, standard OPD typically generates full rollouts during training, which is computationally…