PulseAugur
实时 14:08:46
English(EN) Additive Control Variates Dominate Self-Normalisation in Off-Policy Evaluation

新研究证明加性控制变量在OPE中优于自归一化

研究人员从理论上证明了加性控制变量在离轨策略评估中优于自归一化技术。该研究证明,使用最优加性基线的估计量在均方误差方面渐进地优于标准的自归一化逆倾向评分(SNIPS)方法。该分析表明,为了在推荐和排序系统中获得更好的性能,应转向加性基线。 AI

影响 为在推荐和排序系统中采用加性基线而非SNIPS以提高性能提供了理论依据。

排序理由 学术论文,介绍了关于离轨策略评估方法的理论结果。

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新研究证明加性控制变量在OPE中优于自归一化

报道来源 [1]

  1. arXiv cs.LG TIER_1 English(EN) · Olivier Jeunen, Shashank Gupta ·

    Additive Control Variates Dominate Self-Normalisation in Off-Policy Evaluation

    arXiv:2602.14914v2 Announce Type: replace Abstract: Off-policy evaluation (OPE) is essential for assessing ranking and recommendation systems without costly online interventions. Self-Normalised Inverse Propensity Scoring (SNIPS) is a standard tool for variance reduction in OPE, …