研究人员推出了一种名为深度密集探索(DDE)的新策略,旨在改进大型语言模型的强化学习。DDE专注于探索不成功轨迹中的深度、可恢复状态,这是当前GRPO和基于树的方法等方法难以解决的挑战。DDE中提出的DEEP-GRPO实现使用数据驱动的效用函数来识别这些关键的“支点”状态,从而实现局部密集重采样和双流优化,以实现更有效的学习。在数学推理任务上的实验表明,DEEP-GRPO的性能显著优于现有基线。 AI
影响 这种新的探索策略可能导致更有效地训练LLM以完成复杂的推理任务。
排序理由 该集群包含一篇详细介绍LLM强化学习新方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]
- Deep Dense Exploration
- DEEP-GRPO
- GRPO
- large language models
- mathematical reasoning
- reinforcement learning
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →