新的LLM强化学习策略增强探索能力

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-15 04:00

研究人员推出了一种名为深度密集探索（DDE）的新策略，旨在改进大型语言模型的强化学习。DDE专注于探索不成功轨迹中的深度、可恢复状态，这是当前GRPO和基于树的方法等方法难以解决的挑战。DDE中提出的DEEP-GRPO实现使用数据驱动的效用函数来识别这些关键的“支点”状态，从而实现局部密集重采样和双流优化，以实现更有效的学习。在数学推理任务上的实验表明，DEEP-GRPO的性能显著优于现有基线。 AI

影响这种新的探索策略可能导致更有效地训练LLM以完成复杂的推理任务。

排序理由该集群包含一篇详细介绍LLM强化学习新方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Yiran Guo, Zhongjian Qiao, Yingqi Xie, Jie Liu, Dan Ye, Ruiqing Zhang, Shuang Qiu, Lijie Xu · 2026-06-15 04:00

Deep Dense Exploration for LLM Reinforcement Learning via Pivot-Driven Resampling

arXiv:2602.14169v2 Announce Type: replace-cross Abstract: Effective exploration is a key challenge in reinforcement learning for large language models: discovering high-quality trajectories within a limited sampling budget from the vast natural language sequence space. Existing m…

报道来源 [1]

Deep Dense Exploration for LLM Reinforcement Learning via Pivot-Driven Resampling

相关实体

相关话题