PulseAugur
实时 12:19:45
English(EN) Fairness in two-player zero-sum games with bandit feedback

新方法分析具有老虎机反馈的公平两人零和博弈

研究人员开发了一种新方法,用于在公平性约束下分析具有老虎机反馈的两人零和博弈。他们的方法通过重新参数化博弈,将其转化为标准的零和博弈,从而简化了混合均衡的分析。这使得可以推导出公平的最小极大值以及量化公平性成本的双重表示,表明其成本最多为 $\alpha(1-1/m)$,并且如果无约束均衡已经具有完全支持,则成本会消失。所提出的算法对于一般的混合公平均衡实现了 $\widetilde{O}(T^{2/3})$ 的遗憾界限。 AI

影响 引入了一个新颖的理论框架来分析公平博弈均衡,可能影响竞争或资源受限环境中的 AI 代理。

排序理由 这是一篇发表在 arXiv 上的研究论文,详细介绍了一种新的博弈论理论方法。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.LG TIER_1 English(EN) · S Akash, Pratik Gajane ·

    Fairness in two-player zero-sum games with bandit feedback

    arXiv:2606.01159v1 Announce Type: new Abstract: We study two-player zero-sum games (TPZSGs) with bandit feedback under fairness constraints requiring every action to be played with probability at least $\alpha/m$. Existing instance-dependent results target $\textit{pure}$ Nash eq…