PulseAugur
实时 02:23:10
实体 Multi-policy Multi-Objective Q-Learning

Multi-policy Multi-Objective Q-Learning

PulseAugur coverage of Multi-policy Multi-Objective Q-Learning — every cluster mentioning Multi-policy Multi-Objective Q-Learning across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_91202 ·

    新的MORL方法解决公平性和智能体协调问题

    研究人员开发了用于多目标强化学习(MORL)的新方法,以解决公平性和协调性挑战。其中一篇论文介绍了在MORL中学习公平帕累托最优策略的算法,重点是通过适应历史不公平性来满足多样化的用户偏好。另一篇论文提出了用于合作多目标多智能体强化学习(MOMARL)的偏好协调多智能体策略优化(PCMA),能够协调智能体特定的偏好以提高团队绩效和权衡协调。