English(EN) PERRY: Policy Evaluation with Confidence Intervals using Auxiliary Data

新的PERRY方法为RL策略评估提供可靠的不确定性估计

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-15 04:00

一篇新论文介绍了一种名为PERRY的方法，该方法在利用辅助数据（例如模型生成的数据）进行离线策略评估（OPE）时，可以构建有效的置信区间。这种方法对于医疗保健等高风险领域至关重要，因为在这些领域中，安全部署强化学习（RL）策略需要可靠的不确定性估计。PERRY提供了两种方法：一种用于状态条件策略值，另一种用于平均策略性能，它们借鉴了保形预测和双重稳健估计技术。在各种模拟器和真实医疗保健数据集上的实验表明，PERRY能够有效利用辅助数据并提供准确的置信区间。 AI

影响通过提供稳健的不确定性量化，能够更可靠地在关键应用中部署强化学习策略。

排序理由该集群包含一篇学术论文，详细介绍了一种用于强化学习策略评估的新方法。

在 arXiv stat.ML 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv stat.ML TIER_1 English(EN) · Aishwarya Mandyam, Jason Meng, Ge Gao, Jiankai Sun, Mac Schwager, Barbara E. Engelhardt, Emma Brunskill · 2026-06-15 04:00

PERRY: Policy Evaluation with Confidence Intervals using Auxiliary Data

arXiv:2507.20068v2 Announce Type: replace-cross Abstract: Off-policy evaluation (OPE) methods estimate the value of a new reinforcement learning (RL) policy prior to deployment. Recent advances have shown that leveraging auxiliary datasets, such as those synthesized by generative…

报道来源 [1]

PERRY: Policy Evaluation with Confidence Intervals using Auxiliary Data

相关实体

相关话题