实体 Pareto Q-Learning with Reward Machines

Pareto Q-Learning with Reward Machines

PulseAugur coverage of Pareto Q-Learning with Reward Machines — every cluster mentioning Pareto Q-Learning with Reward Machines across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 1

发布 · 30天

90 天内 0

论文 · 30天

90 天内 1

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

RESEARCH · CL_97831 · Jun 17 · 14:44

新的Pareto Q-Learning算法增强了多目标强化学习

研究人员推出了一种新颖的多目标强化学习算法——带奖励机的Pareto Q-Learning（PQLRM），该算法专为具有由奖励机定义的复杂奖励结构的任务而设计。该算法集成了Pareto Q-Learning（处理用于Pareto前沿近似的向量值Q估计）与带奖励机的Q-Learning的增强功能（利用奖励信号的自动机结构）。PQLRM旨在在非马尔可夫、奖励机编码的环境中实现样本效率，并已证明其收敛速度更快，并且能够合成其他方法无法实现的…

新的Pareto Q-Learning算法增强了多目标强化学习