PulseAugur
实时 12:35:59
English(EN) PERRY: Policy Evaluation with Confidence Intervals using Auxiliary Data

新的PERRY方法为RL策略评估提供可靠的不确定性估计

一篇新论文介绍了一种名为PERRY的方法,该方法在利用辅助数据(例如模型生成的数据)进行离线策略评估(OPE)时,可以构建有效的置信区间。这种方法对于医疗保健等高风险领域至关重要,因为在这些领域中,安全部署强化学习(RL)策略需要可靠的不确定性估计。PERRY提供了两种方法:一种用于状态条件策略值,另一种用于平均策略性能,它们借鉴了保形预测和双重稳健估计技术。在各种模拟器和真实医疗保健数据集上的实验表明,PERRY能够有效利用辅助数据并提供准确的置信区间。 AI

影响 通过提供稳健的不确定性量化,能够更可靠地在关键应用中部署强化学习策略。

排序理由 该集群包含一篇学术论文,详细介绍了一种用于强化学习策略评估的新方法。

在 arXiv stat.ML 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新的PERRY方法为RL策略评估提供可靠的不确定性估计

报道来源 [1]

  1. arXiv stat.ML TIER_1 English(EN) · Aishwarya Mandyam, Jason Meng, Ge Gao, Jiankai Sun, Mac Schwager, Barbara E. Engelhardt, Emma Brunskill ·

    PERRY: Policy Evaluation with Confidence Intervals using Auxiliary Data

    arXiv:2507.20068v2 Announce Type: replace-cross Abstract: Off-policy evaluation (OPE) methods estimate the value of a new reinforcement learning (RL) policy prior to deployment. Recent advances have shown that leveraging auxiliary datasets, such as those synthesized by generative…