English(EN) PEBS: Per-rater Empirical-Bayes Shrinkage for RLHF Reward-Model Calibration

新的 PEBS 方法增强了 RLHF 奖励模型的校准

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-29 04:00

研究人员开发了 PEBS，这是一种新颖的每位评分者经验贝叶斯收缩估计器，旨在改进用于人类反馈强化学习 (RLHF) 的奖励模型的校准。传统方法会汇总标注者偏好并拟合单个全局校准器，这可能会掩盖个体评分尺度的差异。PEBS 通过拟合每位评分者的仿射校准器并将收缩趋向于总体均值来解决此问题，提供了一种无需重新训练基础奖励模型的闭式事后解决方案。该方法已在 PRISM 和 PluriHarms 等基准数据集上证明了均方根误差 (RMSE) 的降低。 AI

影响这项研究可能导致 RLHF 中更准确、更可靠的奖励模型，从而更好地使人工智能系统与人类偏好保持一致。

排序理由该集群包含一篇详细介绍改进人工智能模型训练新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Arnav Raj · 2026-06-29 04:00

PEBS: Per-rater Empirical-Bayes Shrinkage for RLHF Reward-Model Calibration

arXiv:2606.27578v1 Announce Type: cross Abstract: Reward models for Reinforcement Learning from Human Feedback (RLHF) pool preferences across thousands of annotators and fit one global affine calibrator, collapsing raters with systematically different rating-scale offsets and slo…

报道来源 [1]

PEBS: Per-rater Empirical-Bayes Shrinkage for RLHF Reward-Model Calibration

相关实体

相关话题