English(EN) Adaptive Loss Balancing for Noise-Robust GRPO in Generative Recommendation

新框架通过自适应强化学习提升生成推荐效果

作者 PulseAugur 编辑部 · [2 个来源] · 2026-06-07 06:51

研究人员开发了AdaGRPO，一个新框架，通过使强化学习对噪声奖励模型更具鲁棒性来改进生成推荐系统。该方法根据策略不确定性和奖励模型可辨别性选择性地应用强化学习，在不满足这些条件时默认使用监督学习。在大规模电子商务数据集验证和生产A/B测试中，AdaGRPO在推荐质量、点击率和停留时间方面均显示出显著改进，同时控制了幻觉现象。 AI

影响通过提高强化学习的可靠性来增强生成推荐系统，可能带来更准确、更吸引人的用户体验。

排序理由该集群包含一篇详细介绍生成推荐系统新方法的学术论文。

在 arXiv cs.IR (Information Retrieval) 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.AI TIER_1 English(EN) · Kewei Xu, Junbo Qi, Yanyan Zou, Pengfei Zhang, Xingzhi Yao, Shengjie Li · 2026-06-09 04:00

面向噪声鲁棒GRPO的自适应损失平衡在生成式推荐中的应用

arXiv:2606.08480v1 Announce Type: cross Abstract: Reinforcement learning (RL) presents a promising avenue for enhancing generative recommendation beyond supervised imitation, leveraging reward signals to guide policy improvement. However, its efficacy is critically contingent on …
arXiv cs.IR (Information Retrieval) TIER_1 English(EN) · Shengjie Li · 2026-06-07 06:51

面向噪声鲁棒GRPO的自适应损失平衡在生成式推荐中的应用

Reinforcement learning (RL) presents a promising avenue for enhancing generative recommendation beyond supervised imitation, leveraging reward signals to guide policy improvement. However, its efficacy is critically contingent on the trustworthiness of the reward model for the sa…

报道来源 [2]

面向噪声鲁棒GRPO的自适应损失平衡在生成式推荐中的应用

面向噪声鲁棒GRPO的自适应损失平衡在生成式推荐中的应用

相关实体

相关话题