研究人员开发了用于多目标强化学习(MORL)的新方法,以解决公平性和协调性挑战。其中一篇论文介绍了在MORL中学习公平帕累托最优策略的算法,重点是通过适应历史不公平性来满足多样化的用户偏好。另一篇论文提出了用于合作多目标多智能体强化学习(MOMARL)的偏好协调多智能体策略优化(PCMA),能够协调智能体特定的偏好以提高团队绩效和权衡协调。 AI
影响 MORL和MOMARL的这些进展可能在复杂的多目标环境中带来更公平、更高效的决策系统。
排序理由 该集群包含两篇在arXiv上发表的学术论文,详细介绍了强化学习中的新算法和理论框架。
在 arXiv cs.MA (Multiagent) 阅读 →
- arXiv
- Preference Coordinated Multi-agent Policy Optimization
- Generalized Gini Welfare function
- Multi-Objective Multi-Agent Reinforcement Learning
- Multi-Objective Reinforcement Learning
- Multi-policy Multi-Objective Q-Learning
AI 生成摘要 · Google Gemini · 来自 4 个来源。 我们如何撰写摘要 →