PulseAugur
实时 14:06:05
实体 Aishwarya Mandyam

Aishwarya Mandyam

PulseAugur coverage of Aishwarya Mandyam — every cluster mentioning Aishwarya Mandyam across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_91224 ·

    新的PERRY方法为RL策略评估提供可靠的不确定性估计

    一篇新论文介绍了一种名为PERRY的方法,该方法在利用辅助数据(例如模型生成的数据)进行离线策略评估(OPE)时,可以构建有效的置信区间。这种方法对于医疗保健等高风险领域至关重要,因为在这些领域中,安全部署强化学习(RL)策略需要可靠的不确定性估计。PERRY提供了两种方法:一种用于状态条件策略值,另一种用于平均策略性能,它们借鉴了保形预测和双重稳健估计技术。在各种模拟器和真实医疗保健数据集上的实验表明,PERRY能够有效利用辅助数据…