实体 Multi-objective reinforcement learning

Multi-objective reinforcement learning

PulseAugur coverage of Multi-objective reinforcement learning — every cluster mentioning Multi-objective reinforcement learning across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 3

发布 · 30天

90 天内 0

论文 · 30天

90 天内 3

层级分布 · 90 天

主题

情绪 · 30 天

2 天有情绪数据

最近 · 第 1/1 页 · 共 3 条

TOOL · CL_119511 · Jul 1 · 04:00

新的AETDICE框架统一了多目标强化学习中的非线性目标

研究人员推出AETDICE，一个旨在统一和优化多目标强化学习（MORL）中非线性目标的新框架。这种名为聚合-期望-变换（AET）框架的新方法，弥合了之前两个独立范式——标量化期望回报（SER）和期望标量化回报（ESR）之间的差距。AETDICE是一种离线强化学习算法，它利用AET框架，能够从静态数据集中进行基于样本的优化，解决了风险规避和公平性等复杂权衡问题，这些问题以前难以处理。
RESEARCH · CL_91202 · Jun 12 · 17:55

新的MORL方法解决公平性和智能体协调问题

研究人员开发了用于多目标强化学习（MORL）的新方法，以解决公平性和协调性挑战。其中一篇论文介绍了在MORL中学习公平帕累托最优策略的算法，重点是通过适应历史不公平性来满足多样化的用户偏好。另一篇论文提出了用于合作多目标多智能体强化学习（MOMARL）的偏好协调多智能体策略优化（PCMA），能够协调智能体特定的偏好以提高团队绩效和权衡协调。
RESEARCH · CL_08684 · Apr 29 · 04:00

研究人员比较用于自动驾驶汽车需求测试的强化学习方法

一项新研究对用于测试自动驾驶汽车的强化学习技术进行了实证评估，特别比较了单目标强化学习（SORL）和多目标强化学习（MORL）在生成关键场景方面的表现。研究表明，虽然两种方法都能发现需求违反，但MORL倾向于产生更多样化的场景，而SORL可能暴露更严重的问题。MORL和SORL之间的选择取决于优先考虑场景多样性还是违规的严重性，MORL更适合广泛的覆盖范围。

新的AETDICE框架统一了多目标强化学习中的非线性目标

新的MORL方法解决公平性和智能体协调问题

研究人员比较用于自动驾驶汽车需求测试的强化学习方法