PulseAugur
实时 13:54:29
实体 Deep Dense Exploration

Deep Dense Exploration

PulseAugur coverage of Deep Dense Exploration — every cluster mentioning Deep Dense Exploration across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_91401 ·

    新的LLM强化学习策略增强探索能力

    研究人员推出了一种名为深度密集探索(DDE)的新策略,旨在改进大型语言模型的强化学习。DDE专注于探索不成功轨迹中的深度、可恢复状态,这是当前GRPO和基于树的方法等方法难以解决的挑战。DDE中提出的DEEP-GRPO实现使用数据驱动的效用函数来识别这些关键的“支点”状态,从而实现局部密集重采样和双流优化,以实现更有效的学习。在数学推理任务上的实验表明,DEEP-GRPO的性能显著优于现有基线。