研究人员开发了针对双人零和随机博弈中去中心化学习算法的有限样本分析。所提出的方法,包括用于矩阵博弈的基于收益的算法以及用于随机博弈的具有平滑最佳响应(VI-SBR)的值迭代,旨在找到 epsilon-Nash 分布和均衡。该分析建立了样本复杂度保证,其中 VI-SBR 算法在找到随机博弈的 \epsilon-Nash 均衡方面实现了 \tilde{\mathcal{O}}(\epsilon^{-8}) 的样本复杂度。技术方法利用耦合李雅普诺夫漂移框架来处理复杂的迭代算法和非平稳采样过程。 AI
影响 为适用于多智能体系统和博弈论的去中心化学习算法提供了理论进展。
排序理由 该集群包含一篇学术论文,详细介绍了博弈论中学习算法的新理论分析。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →