一篇新论文介绍了一种名为PERRY的方法,该方法在利用辅助数据(例如模型生成的数据)进行离线策略评估(OPE)时,可以构建有效的置信区间。这种方法对于医疗保健等高风险领域至关重要,因为在这些领域中,安全部署强化学习(RL)策略需要可靠的不确定性估计。PERRY提供了两种方法:一种用于状态条件策略值,另一种用于平均策略性能,它们借鉴了保形预测和双重稳健估计技术。在各种模拟器和真实医疗保健数据集上的实验表明,PERRY能够有效利用辅助数据并提供准确的置信区间。 AI
影响 通过提供稳健的不确定性量化,能够更可靠地在关键应用中部署强化学习策略。
排序理由 该集群包含一篇学术论文,详细介绍了一种用于强化学习策略评估的新方法。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →