PulseAugur
实时 08:56:52
实体 Pareto Q-Learning with Reward Machines

Pareto Q-Learning with Reward Machines

PulseAugur coverage of Pareto Q-Learning with Reward Machines — every cluster mentioning Pareto Q-Learning with Reward Machines across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_97831 ·

    新的Pareto Q-Learning算法增强了多目标强化学习

    研究人员推出了一种新颖的多目标强化学习算法——带奖励机的Pareto Q-Learning(PQLRM),该算法专为具有由奖励机定义的复杂奖励结构的任务而设计。该算法集成了Pareto Q-Learning(处理用于Pareto前沿近似的向量值Q估计)与带奖励机的Q-Learning的增强功能(利用奖励信号的自动机结构)。PQLRM旨在在非马尔可夫、奖励机编码的环境中实现样本效率,并已证明其收敛速度更快,并且能够合成其他方法无法实现的…