研究人员开发了AdaGRPO,一个新框架,通过使强化学习对噪声奖励模型更具鲁棒性来改进生成推荐系统。该方法根据策略不确定性和奖励模型可辨别性选择性地应用强化学习,在不满足这些条件时默认使用监督学习。在大规模电子商务数据集验证和生产A/B测试中,AdaGRPO在推荐质量、点击率和停留时间方面均显示出显著改进,同时控制了幻觉现象。 AI
影响 通过提高强化学习的可靠性来增强生成推荐系统,可能带来更准确、更吸引人的用户体验。
排序理由 该集群包含一篇详细介绍生成推荐系统新方法的学术论文。
在 arXiv cs.IR (Information Retrieval) 阅读 →
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →