实体 Yizhou Zhang

Yizhou Zhang

PulseAugur coverage of Yizhou Zhang — every cluster mentioning Yizhou Zhang across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_63024 · Jun 1 · 04:00

新的MARL算法通过风险规避实现可证明的收敛

研究人员开发了一种新的多智能体强化学习（MARL）actor-critic算法，解决了通用和马尔可夫博弈中学习固定策略的挑战。该算法利用风险规避量化响应均衡（RQE）的概念，该概念结合了风险规避和有限理性，以确保收敛。理论保证和经验验证表明，与风险中性方法相比，其性能更优。