两篇新研究论文探讨了差分隐私在老虎机问题中的应用。第一篇论文介绍了一种用于扩展形式老虎机问题的算法,该算法实现了局部差分隐私,遗憾界限为 \(\tilde{O}(\sqrt{A\ln(S)T}/\epsilon)\)。第二篇论文提出了一种用于最大最小公平多智能体老虎机问题的全分布式算法,该算法在保持奖励隐私的同时,实现了对智能体数量的多项式依赖和对时间范围的近对数依赖。 AI
影响 这些论文推进了对多智能体强化学习环境中隐私的理论理解。
排序理由 两篇arXiv论文提出了隐私保护老虎机问题的新颖算法。
- Amir Leshem
- arXiv
- Differential Privacy
- Extensive-Form Bandit Problem
- Max-Min Fair Multi-Agent Bandits
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →