这篇分为两部分的论文介绍了在具有共同噪声的均值场控制中进行连续时间Q学习的理论基础和算法。第一部分建立了理论框架,定义了集成Q函数(Iq函数),并推导了最优策略作为不动点的条件。第二部分在此基础上,设计了包括Actor-Critic方法在内的Q学习算法,并证明了它们在线性二次和其他设置中的收敛性和性能。 AI
影响 为复杂的控制问题引入了新颖的Q学习算法,可能推动强化学习在多智能体系统中的应用。
排序理由 这是一篇发表在arXiv上的研究论文,详细介绍了特定类型控制问题的理论基础和算法。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →