PulseAugur
实时 18:26:33
实体 Shaojun Xu

Shaojun Xu

PulseAugur coverage of Shaojun Xu — every cluster mentioning Shaojun Xu across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_56479 ·

    Mind Dreamer 框架通过因果干预增强了强化学习的想象力

    研究人员推出了一种名为 Mind Dreamer (MD) 的新颖框架,旨在通过克服想象力中历史束缚的局限性来增强基于模型的强化学习。MD 采用主动因果干预,允许模型探索超出观测数据范围的状态,并从对抗性生成器初始化想象力,以发现非连续的潜在跳跃。该方法旨在解决世界模型发现和策略优化之间的学习不对称性,理论上建立了不确定性传播的二次折扣,并在基准任务上实现了显著的加速。