实体 Deep Dense Exploration

Deep Dense Exploration

PulseAugur coverage of Deep Dense Exploration — every cluster mentioning Deep Dense Exploration across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 1

发布 · 30天

90 天内 0

论文 · 30天

90 天内 1

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_91401 · Jun 15 · 04:00

新的LLM强化学习策略增强探索能力

研究人员推出了一种名为深度密集探索（DDE）的新策略，旨在改进大型语言模型的强化学习。DDE专注于探索不成功轨迹中的深度、可恢复状态，这是当前GRPO和基于树的方法等方法难以解决的挑战。DDE中提出的DEEP-GRPO实现使用数据驱动的效用函数来识别这些关键的“支点”状态，从而实现局部密集重采样和双流优化，以实现更有效的学习。在数学推理任务上的实验表明，DEEP-GRPO的性能显著优于现有基线。

新的LLM强化学习策略增强探索能力