PulseAugur
实时 12:44:25
实体 Utility-Constrained Policy Optimization

Utility-Constrained Policy Optimization

PulseAugur coverage of Utility-Constrained Policy Optimization — every cluster mentioning Utility-Constrained Policy Optimization across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_91346 ·

    新的强化学习方法解决了信用分配和风险敏感约束问题

    研究人员开发了新的强化学习方法,以改善智能体在复杂环境中的决策能力。广义优势分组策略优化(GAGPO)通过构建非参数价值代理,将奖励在多轮场景中向后传播,解决了信用分配的挑战,在ALFWorld和WebShop等任务上表现优于现有基线。另外,效用约束策略优化(UCMDP)提供了一个用于强化学习中风险敏感约束的框架,允许在训练过程中灵活调整安全限制,并在Safety Gymnasium基准测试中取得了优异的性能。