English(EN) Mitigating Reward Hacking in RLHF via Bayesian Non-negative Reward Modeling

新的贝叶斯模型可解决LLM训练中的奖励破解问题

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-02 04:00

研究人员开发了一个名为贝叶斯非负奖励模型（BNRM）的新框架，以解决通过人类反馈强化学习（RLHF）训练的大型语言模型中的奖励破解问题。BNRM使用稀疏、非负的潜在因子生成过程来表示奖励，这有助于解耦和去偏奖励表示，使其对噪声和偏差更具鲁棒性。这种方法提高了不确定性感知的奖励学习能力，并在实证测试中显著缓解了奖励过度优化问题，并在分布变化下表现更好。 AI

影响通过缓解奖励破解问题，引入了一种提高LLM训练鲁棒性和可解释性的新方法。

排序理由该集群包含一篇详细介绍改进LLM训练新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Zhibin Duan, Guowei Rong, Zhuo Li, Bo Chen, Mingyuan Zhou, Dandan Guo · 2026-06-02 04:00

Mitigating Reward Hacking in RLHF via Bayesian Non-negative Reward Modeling

arXiv:2602.10623v2 Announce Type: replace-cross Abstract: Reward models learned from human preferences are central to aligning large language models (LLMs) via reinforcement learning from human feedback, yet they are often vulnerable to reward hacking due to noisy annotations and…

报道来源 [1]

Mitigating Reward Hacking in RLHF via Bayesian Non-negative Reward Modeling

相关实体

相关话题