研究人员开发了一种新颖的后验方法,可以在不要求额外标签或重新训练的情况下,识别和缓解已冻结的视觉模型中的偏见。该技术利用概念分解上的梯度探针,根据虚假概念与错误分类示例的交互来对其进行排名。这种方法成功地识别了 Colored MNIST 和 Waterbirds 等数据集中的已知虚假线索,并在 CelebA 中发现了与决策相关的方向,从而显著提高了最差群体准确性。 AI
影响 提供了一种新的、无标签的方法来审计和消除已部署的视觉模型中的偏见,在不进行昂贵重新训练的情况下提高公平性。
排序理由 该集群包含一篇学术论文,详细介绍了用于人工智能安全的新研究方法。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →