PulseAugur
实时 16:50:23
实体 Xnest

Xnest

PulseAugur coverage of Xnest — every cluster mentioning Xnest across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_104648 ·

    进化算法为强化学习发现新颖的奖励机制

    研究人员开发了一个进化框架,用于在深度强化学习中发现发展性奖励机制,旨在探索在训练过程中动机优先级如何转移。该方法将三种受生物学启发的组成部分——自主性、新颖性和反应性——与动态变化的权重相结合。在稀疏奖励的MiniGrid任务上进行测试时,进化方法,特别是L-SHADE和CMA-ES,与手工设计的基线相比,表现和泛化能力均有所提高。有趣的是,发现的机制通常将新颖性作为早期训练信号,这与典型的生物发展模式不同。