研究人员发现,可验证奖励强化学习(RLVR)中存在一个关键瓶颈,阻碍了LLM推理优化。研究指出,标准硬裁剪方法中的僵化裁剪决策是原因,它丢弃了裁剪阈值附近的宝贵信号。为解决此问题,他们提出了近边界随机恢复(NSR)方法,这是一种简单的修改,可以随机保留这些略微超出边界的token,从而提高各种模型大小和架构的训练稳定性和性能。 AI
影响 提高了LLM推理任务的训练稳定性和性能,有望实现更强大、更具能力的模型。
排序理由 该集群包含一篇学术论文,详细介绍了一种提高LLM训练稳定性方面的新方法。
- DAPO
- LLM
- Near-boundary Stochastic Rescue (NSR)
- Reinforcement Learning with Verifiable Rewards (RLVR)
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →