研究人员分析了来自可验证奖励的强化学习(RLVR),以了解其对大型语言模型推理的影响。他们的理论分析表明,由每次rollout的梯度步数影响的离策略学习程度,通过影响重要性采样比率和裁剪行为,显著改变了更新动态。基于此,他们提出了自适应裁剪策略优化(ACPO),该方法动态调整裁剪边界。实验表明,ACPO在使用3B和7B模型进行的各种推理任务上优于DAPO和CISPO等现有方法。 AI
影响 为LLM引入了一种基于原则的RL方法,有望带来更强大、更有效的推理能力。
排序理由 详细介绍改进LLM推理新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
- Adaptive Clip Policy Optimization
- arXiv
- CISPO
- DAPO
- Hugging Face
- Reinforcement Learning from Verifiable Rewards
- RLVR
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →