实体 Xnest

Xnest

PulseAugur coverage of Xnest — every cluster mentioning Xnest across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_104648 · Jun 18 · 18:47

进化算法为强化学习发现新颖的奖励机制

研究人员开发了一个进化框架，用于在深度强化学习中发现发展性奖励机制，旨在探索在训练过程中动机优先级如何转移。该方法将三种受生物学启发的组成部分——自主性、新颖性和反应性——与动态变化的权重相结合。在稀疏奖励的MiniGrid任务上进行测试时，进化方法，特别是L-SHADE和CMA-ES，与手工设计的基线相比，表现和泛化能力均有所提高。有趣的是，发现的机制通常将新颖性作为早期训练信号，这与典型的生物发展模式不同。