一篇新研究论文提出了用于马尔可夫决策过程离轨推断的非参数序列值评估(NSAVE)方法。该方法解决了估计最优策略值所面临的挑战,特别是在最优策略不唯一的情况下。NSAVE 提供基于鞅的推断,并保持双重稳健性,提供理论保证和模拟支持。 AI
排序理由 该集群包含一篇发表在arXiv上的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →
一篇新研究论文提出了用于马尔可夫决策过程离轨推断的非参数序列值评估(NSAVE)方法。该方法解决了估计最优策略值所面临的挑战,特别是在最优策略不唯一的情况下。NSAVE 提供基于鞅的推断,并保持双重稳健性,提供理论保证和模拟支持。 AI
排序理由 该集群包含一篇发表在arXiv上的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →
arXiv:2505.13809v5 Announce Type: replace-cross Abstract: Off-policy evaluation (OPE) constructs confidence intervals for the value of a target policy using data generated under a different behavior policy. Most existing inference methods focus on fixed target policies and may fa…