PulseAugur
实时 08:52:48
实体 Reward Machines: Exploiting Reward Function Structure in Reinforcement Learning

Reward Machines: Exploiting Reward Function Structure in Reinforcement Learning

PulseAugur coverage of Reward Machines: Exploiting Reward Function Structure in Reinforcement Learning — every cluster mentioning Reward Machines: Exploiting Reward Function Structure in Reinforcement Learning across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_97831 ·

    新的Pareto Q-Learning算法增强了多目标强化学习

    研究人员推出了一种新颖的多目标强化学习算法——带奖励机的Pareto Q-Learning(PQLRM),该算法专为具有由奖励机定义的复杂奖励结构的任务而设计。该算法集成了Pareto Q-Learning(处理用于Pareto前沿近似的向量值Q估计)与带奖励机的Q-Learning的增强功能(利用奖励信号的自动机结构)。PQLRM旨在在非马尔可夫、奖励机编码的环境中实现样本效率,并已证明其收敛速度更快,并且能够合成其他方法无法实现的…