PulseAugur
实时 07:19:07

新的Pareto Q-Learning算法增强了多目标强化学习

研究人员推出了一种新颖的多目标强化学习算法——带奖励机的Pareto Q-Learning(PQLRM),该算法专为具有由奖励机定义的复杂奖励结构的任务而设计。该算法集成了Pareto Q-Learning(处理用于Pareto前沿近似的向量值Q估计)与带奖励机的Q-Learning的增强功能(利用奖励信号的自动机结构)。PQLRM旨在在非马尔可夫、奖励机编码的环境中实现样本效率,并已证明其收敛速度更快,并且能够合成其他方法无法实现的Pareto最优策略。 AI

影响 增强了具有复杂奖励结构的多目标强化学习任务中的样本效率和策略合成能力。

排序理由 该集群包含一篇提交到arXiv的研究论文,详细介绍了一种新的强化学习算法。

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

报道来源 [2]

  1. arXiv cs.AI TIER_1 English(EN) · Arnaud Lequen, Cl\'ement Legrand-Lixon, L\'eo Sauli\`eres ·

    Pareto Q-Learning with Reward Machines

    arXiv:2606.19134v1 Announce Type: cross Abstract: We present Pareto Q-Learning with Reward Machines (PQLRM), a multi-objective reinforcement learning algorithm for tasks whose reward structure is specified by a set of reward machines (RMs). PQLRM combines Pareto Q-Learning (PQL),…

  2. arXiv cs.AI TIER_1 English(EN) · Léo Saulières ·

    Pareto Q-Learning with Reward Machines

    We present Pareto Q-Learning with Reward Machines (PQLRM), a multi-objective reinforcement learning algorithm for tasks whose reward structure is specified by a set of reward machines (RMs). PQLRM combines Pareto Q-Learning (PQL), which maintains sets of vector-valued Q-estimates…