研究人员开发了一种名为不确定性感知奖励建模(UARM)的新方法,以提高大型语言模型中来自人类反馈的强化学习(RLHF)的稳定性。传统的RLHF方法存在困难,因为它们的奖励模型提供确定性预测,未能表明何时其估计是不可靠的。这可能导致策略放大错误的奖励信号,造成“奖励破解”。UARM通过分位数共轭预测和基于方差分解的策略优化优势重加权来整合校准的不确定性,从而解决这个问题。在HelpSteer和UltraFeedback等基准数据集上的实验表明,与现有方法相比,UARM增强了奖励模型的校准,减轻了奖励破解,并提高了整体对齐质量。 AI
影响 通过在奖励模型中提供校准的不确定性,增强了LLM对齐的稳定性并减少了奖励破解。
排序理由 该集群包含一篇详细介绍改进LLM对齐新方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]
- arXiv
- GRPO
- HelpSteer
- large language models
- PKU-SafeRLHF
- reinforcement learning from human feedback
- UltraFeedback
- Uncertainty-Aware Reward Modeling
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →