English(EN) Additive Control Variates Dominate Self-Normalisation in Off-Policy Evaluation

新研究证明加性控制变量在OPE中优于自归一化

作者 PulseAugur 编辑部 · [1 个来源] · 2026-04-28 04:00

研究人员从理论上证明了加性控制变量在离轨策略评估中优于自归一化技术。该研究证明，使用最优加性基线的估计量在均方误差方面渐进地优于标准的自归一化逆倾向评分（SNIPS）方法。该分析表明，为了在推荐和排序系统中获得更好的性能，应转向加性基线。 AI

影响为在推荐和排序系统中采用加性基线而非SNIPS以提高性能提供了理论依据。

排序理由学术论文，介绍了关于离轨策略评估方法的理论结果。

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Olivier Jeunen, Shashank Gupta · 2026-04-28 04:00

加性控制变量在策略外评估中主导自归一化

arXiv:2602.14914v2 Announce Type: replace Abstract: Off-policy evaluation (OPE) is essential for assessing ranking and recommendation systems without costly online interventions. Self-Normalised Inverse Propensity Scoring (SNIPS) is a standard tool for variance reduction in OPE, …