研究人员发现,在具有可验证奖励的强化学习(RLVR)中存在一个关键问题,称为探索崩溃,即概率集中在排名最高的响应上,限制了不同的结果。为了解决这个问题,提出了一种名为候选感知支持保留(CaSP)的新方法。CaSP通过调整正确响应的梯度并惩罚错误的最高响应来工作,从而提高了各种基准测试和模型规模的性能。 AI
影响 这项研究引入了一种改进RLVR探索的新方法,有望在复杂任务中产生更多样化和有效的AI响应。
排序理由 该集群包含一篇详细介绍AI研究特定领域新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →