两篇新的研究论文探讨了改进用于训练推理模型的RLVR(带可验证奖励的强化学习)的方法。第一篇论文介绍了REFT(首个Token多样化的Rollout探索),一种通过关注推理标记后的首个Token来使Rollout多样化的技术,从而在各种模型规模和难度级别上提高了性能。第二篇论文提出了HAPO(事后追溯感知策略优化),该方法通过基于奖励极性和Token熵分解Token更新来分析Token更新,表明持续的推理收益集中在高熵象限,并在数学推理基准测试中取得了有竞争力的结果。 AI
影响 这些论文引入了新颖的技术,通过改进的训练方法来增强LLM的推理能力,有望带来更强大、更有能力的AI系统。
排序理由 该集群包含两篇学术论文,详细介绍了改进LLM训练的新研究方法。
AI 生成摘要 · Google Gemini · 来自 3 个来源。 我们如何撰写摘要 →