New OPE method tackles missing rewards in reinforcement learning

By PulseAugur Editorial · [2 sources] · 2026-06-18 13:19

Researchers have developed a new method for off-policy evaluation (OPE) in reinforcement learning when rewards are missing not at random (MNAR). This approach addresses selection bias by using future states as shadow variables to identify the full-data conditional mean reward. The proposed estimator, inspired by Fitted-Q-Evaluation, allows target policies to incorporate past missingness indicators and has demonstrated strong performance in experiments on simulated data and MIMIC-III Sepsis data. AI

IMPACT Improves the reliability of reinforcement learning models in real-world scenarios with incomplete data.

RANK_REASON Academic paper on a novel methodology in machine learning.

Read on arXiv stat.ML →

paper
other

AI-generated summary · Google Gemini · from 2 sources. How we write summaries →

New OPE method tackles missing rewards in reinforcement learning

COVERAGE [2]

arXiv stat.ML TIER_1 English(EN) · Ziheng Wei, Annie Qu, Rui Miao · 2026-06-19 04:00

Off-Policy Evaluation for Missingness-Aware Policies in MDPs with Rewards Missing Not at Random

arXiv:2606.20206v1 Announce Type: new Abstract: In offline Reinforcement Learning, immediate rewards in logged batch data are often unobserved due to sparse or irregular record-keeping, or censored beyond certain reward values. This issue arises in practical settings, including h…
arXiv stat.ML TIER_1 English(EN) · Rui Miao · 2026-06-18 13:19

Off-Policy Evaluation for Missingness-Aware Policies in MDPs with Rewards Missing Not at Random

In offline Reinforcement Learning, immediate rewards in logged batch data are often unobserved due to sparse or irregular record-keeping, or censored beyond certain reward values. This issue arises in practical settings, including health care and marketing. We investigate off-pol…

COVERAGE [2]

Off-Policy Evaluation for Missingness-Aware Policies in MDPs with Rewards Missing Not at Random

Off-Policy Evaluation for Missingness-Aware Policies in MDPs with Rewards Missing Not at Random

RELATED ENTITIES

RELATED TOPICS