研究人员开发了一种名为单次采样近端策略优化(SR-PPO)的新型强化学习技术,以解决训练语言模型的计算成本问题。该方法使用蒙特卡洛评论员从每次提示的单次采样中估计 token 级别的优势,而不是依赖多个可能发散的采样轨迹。评论员预测 Pass@k 成功概率,通过关注具有挑战性的前缀来提供更具选择性的学习信号。SR-PPO 在 HMMT26 和 AIME24 等数学推理基准上展示了稳定的学习和更高的成功率。 AI
影响 这项研究通过降低与强化学习相关的计算成本,有望实现更高效的语言模型训练。
排序理由 该集群包含一篇详细介绍语言模型强化学习新算法的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →