English(EN) Continuous-time q-learning for mean-field control with common noise, part-I: Theoretical foundations

研究人员开发了用于具有共同噪声的均值场控制的连续时间q学习

作者 PulseAugur 编辑部 · [2 个来源] · 2026-05-01 04:00

这篇分为两部分的论文介绍了在具有共同噪声的均值场控制中进行连续时间Q学习的理论基础和算法。第一部分建立了理论框架，定义了集成Q函数（Iq函数），并推导了最优策略作为不动点的条件。第二部分在此基础上，设计了包括Actor-Critic方法在内的Q学习算法，并证明了它们在线性二次和其他设置中的收敛性和性能。 AI

影响为复杂的控制问题引入了新颖的Q学习算法，可能推动强化学习在多智能体系统中的应用。

排序理由这是一篇发表在arXiv上的研究论文，详细介绍了特定类型控制问题的理论基础和算法。

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.LG TIER_1 English(EN) · Zhenjie Ren, Xiaoli Wei, Xiang Yu, Xun Yu Zhou · 2026-05-01 04:00

带公共噪声的均值场控制的连续时间q学习，第一部分：理论基础

arXiv:2604.27372v1 Announce Type: cross Abstract: This paper investigates the continuous-time counterpart of the Q-function for entropy-regularized mean-field control (MFC) with controlled common noise, coined as q-function by Jia and Zhou (2023) in the single agent's model. We f…
arXiv cs.LG TIER_1 English(EN) · Zhenjie Ren, Xiaoli Wei, Xiang Yu, Xun Yu Zhou · 2026-05-01 04:00

带公共噪声的均场控制的连续时间q学习，第二部分：q学习算法

arXiv:2604.27378v1 Announce Type: cross Abstract: This paper is a continuation work of Ren et al. (2026) aiming to further devise q-learning algorithms for mean-field control (MFC) with controlled common noise. Based on the relaxed control formulation, we first establish the mart…

报道来源 [2]

带公共噪声的均值场控制的连续时间q学习，第一部分：理论基础

带公共噪声的均场控制的连续时间q学习，第二部分：q学习算法

相关实体

相关话题