研究人员开发了一种新的策略外评估(OPE)方法,用于处理强化学习中奖励缺失非随机(MNAR)的情况。该方法利用未来状态作为影子变量来识别完整数据的条件平均奖励,从而解决选择偏差问题。提出的估计器受Fitted-Q-Evaluation的启发,允许目标策略纳入过去的缺失指标,并在模拟数据和MIMIC-III败血症数据集的实验中表现出强大的性能。 AI
影响 提高了强化学习模型在数据不完整现实场景中的可靠性。
排序理由 关于机器学习新方法的学术论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →