研究人员开发了 F-GRPO,这是一种新颖的方法,通过解决训练过程中遗漏罕见正确轨迹的问题来改进强化学习。该方法引入了一个受 Focal loss 启发的、与难度相关的缩放系数,以降低对高成功率采样组的更新权重。该技术旨在防止策略过于关注常见解决方案而忽略频率较低但正确的路径。在包括 Qwen2.5-7B 在内的 LLM 上的实证测试表明,在不增加计算成本的情况下,数学通过率和分布外性能有了显著提高。 AI
影响 通过改进对罕见但正确结果的处理来增强强化学习算法,可能导致更强大的 AI 代理。
排序理由 这是一篇详细介绍强化学习新方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]
- Alexey Gorbatovski
- F-GRPO
- Focal loss
- Qwen2.5-7B
- Reinforcement Learning with Verifiable Rewards (RLVR)
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →