研究人员开发了新方法,以提高按策略蒸馏(OPD)在长时推理任务中训练 AI 模型的效率。标准的 OPD 需要全量回滚,这在计算上成本高昂,并且在训练早期可能提供不可靠的反馈。提出的技术,渐进式 OPD(POPD)和截断式 OPD(TOPD),优化了回滚范围。POPD 在训练过程中逐渐增加回滚长度,而 TOPD 则仅使用回滚范围的一小部分。实验表明,POPD 可将训练效率提高高达三倍,而 TOPD 在计算资源显著减少的情况下实现了可比的性能。 AI
影响 优化 AI 训练以实现复杂推理任务,可能降低计算成本并加速开发。
排序理由 这是一篇详细介绍 AI 训练新方法的学术论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →