提出了一种新的统计框架来测试预测算法的判别效度,旨在识别模型何时会预测非预期结果。该框架借鉴了因果推断和计量经济学,通过比较校准后的预测损失来评估算法在预期结果上的表现是否优于不允许的结果。该方法在招生场景中得到说明,证实了在性别方面的判别效度,但在种族方面未证实,并在刑事司法背景下进行了分析,强调了进行补充效度检查的必要性。 AI
影响 提供了一种统计方法,通过检测非预期预测来提高预测算法的可靠性和安全性。
排序理由 提出新统计方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →