PulseAugur
实时 03:13:58

研究人员探索差分隐私在老虎机问题和多智能体学习中的应用

两篇新研究论文探讨了差分隐私在老虎机问题中的应用。第一篇论文介绍了一种用于扩展形式老虎机问题的算法,该算法实现了局部差分隐私,遗憾界限为 \(\tilde{O}(\sqrt{A\ln(S)T}/\epsilon)\)。第二篇论文提出了一种用于最大最小公平多智能体老虎机问题的全分布式算法,该算法在保持奖励隐私的同时,实现了对智能体数量的多项式依赖和对时间范围的近对数依赖。 AI

影响 这些论文推进了对多智能体强化学习环境中隐私的理论理解。

排序理由 两篇arXiv论文提出了隐私保护老虎机问题的新颖算法。

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

研究人员探索差分隐私在老虎机问题和多智能体学习中的应用

报道来源 [2]

  1. arXiv cs.LG TIER_1 English(EN) · Stephen Pasteris, Rahul Savani, Theodore Turocy ·

    差分隐私在扩展形式的 Bandit 问题中的应用

    arXiv:2605.05266v1 Announce Type: cross Abstract: We consider the extensive-form bandit problem, where on each trial the learner (a user coordinated by a server) plays an extensive-form game against an oblivious adversary, observing the information sets it finds itself in as well…

  2. arXiv cs.LG TIER_1 English(EN) · Amir Leshem ·

    面向最大最小公平多智能体赌博机的近乎最优隐私保护学习

    arXiv:2306.04498v3 Announce Type: replace Abstract: We study fair multi-agent multi-armed bandit learning under collision-only coordination. Agents cannot communicate explicitly during learning and observe only their own rewards and whether collisions occur when several agents ac…