研究人员推出了一种新颖的多目标强化学习算法——带奖励机的Pareto Q-Learning(PQLRM),该算法专为具有由奖励机定义的复杂奖励结构的任务而设计。该算法集成了Pareto Q-Learning(处理用于Pareto前沿近似的向量值Q估计)与带奖励机的Q-Learning的增强功能(利用奖励信号的自动机结构)。PQLRM旨在在非马尔可夫、奖励机编码的环境中实现样本效率,并已证明其收敛速度更快,并且能够合成其他方法无法实现的Pareto最优策略。 AI
影响 增强了具有复杂奖励结构的多目标强化学习任务中的样本效率和策略合成能力。
排序理由 该集群包含一篇提交到arXiv的研究论文,详细介绍了一种新的强化学习算法。
- alphaXiv
- arXiv
- CatalyzeX
- DagsHub
- Gotit.pub
- Hugging Face
- IArxiv
- Influence Flower
- Markov decision process
- Pareto Q-Learning
- Pareto Q-Learning with Reward Machines
- Q-Learning with Reward Machines
- Reward Machines: Exploiting Reward Function Structure in Reinforcement Learning
- ScienceCast
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →