两篇新研究论文探讨了机器学习中策略外评估(OPE)的高级技术,这是一个使用现有数据评估新策略性能的关键过程。第一篇论文引入了“Quotient DAGs”,用于处理奖励仅取决于无序项目集但生成过程是有序的情况,从而减少了干扰方差。第二篇论文“CANDOR”提出了一种双重稳健的OPE估计器,通过将注释纳入奖励模型组件,有效地利用了不完美的专家标注反事实样本,尤其适用于医疗保健应用。 AI
影响 这些论文引入了新颖的策略外评估方法,有可能提高在医疗保健等关键领域部署新策略的可靠性和安全性。
排序理由 两篇发表在arXiv上的学术论文,详细介绍了策略外评估的新颖方法。
- Counterfactual ANnotated DOubly Robust Off-Policy Evaluation
- electronic health records
- Exact Slate Propensities
- Forward-Flow Importance Sampling
- healthcare
- importance sampling
- off-policy evaluation
- Quotient DAGs
- reward model
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →