新方法通过建模奖励不确定性来增强LLM对齐

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-19 04:00

研究人员开发了一种名为不确定性感知奖励建模（UARM）的新方法，以提高大型语言模型中来自人类反馈的强化学习（RLHF）的稳定性。传统的RLHF方法存在困难，因为它们的奖励模型提供确定性预测，未能表明何时其估计是不可靠的。这可能导致策略放大错误的奖励信号，造成“奖励破解”。UARM通过分位数共轭预测和基于方差分解的策略优化优势重加权来整合校准的不确定性，从而解决这个问题。在HelpSteer和UltraFeedback等基准数据集上的实验表明，与现有方法相比，UARM增强了奖励模型的校准，减轻了奖励破解，并提高了整体对齐质量。 AI

影响通过在奖励模型中提供校准的不确定性，增强了LLM对齐的稳定性并减少了奖励破解。

排序理由该集群包含一篇详细介绍改进LLM对齐新方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Licheng Pan, Haocheng Yang, Haoxuan Li, Yichen Sun, Yunsheng Lu, Shijian Wang, Lei Shen, Yuan Lu, Zhixuan Chu, Hao Wang · 2026-06-19 04:00

Uncertainty-Aware Reward Modeling for Stable RLHF

arXiv:2606.19818v1 Announce Type: cross Abstract: Reinforcement learning from human feedback (RLHF) aligns large language models by training reward models on preference data and optimizing policies to maximize predicted rewards. However, this pipeline faces two fundamental challe…

报道来源 [1]

Uncertainty-Aware Reward Modeling for Stable RLHF

相关实体

相关话题