实体 Bellman operator

Bellman operator

PulseAugur coverage of Bellman operator — every cluster mentioning Bellman operator across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_106764 · Jun 21 · 16:29

新框架应对多智能体强化学习中的模型不匹配问题

研究人员开发了一个新的固定鲁棒均值场博弈框架，以应对在实际场景中部署多智能体强化学习（MARL）所面临的挑战。该框架解决了训练模拟器与实际环境之间的模型不匹配问题，这可能导致性能下降。它通过在不确定集内针对最坏情况的转移模型优化策略来引入分布鲁棒性，为缓解这些问题提供了一种原则性的方法。该论文建立了一个鲁棒动态规划原理，并证明了固定鲁棒均值场均衡的存在性，同时提供了一个具体的算法和收敛性保证。