研究人员开发了一个新的框架,用于设计AI系统的监管审计,该框架考虑了开发者的策略性响应。所提出的方法将交互建模为一个双层Stackelberg博弈,其中审计员承诺查询策略和差分隐私(DP)预算,而开发者则策略性地重新分配缓解措施。这种方法旨在最小化福利加权的低检测差距,该差距代表了由于开发者的响应而导致审计未能检测到的危害。 AI
影响 引入了一种新颖的博弈论方法,通过考虑开发者的策略性行为来提高AI审计的有效性。
排序理由 详细介绍AI审计新理论框架的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →