English(EN) Bias Fitting to Mitigate Length Bias of Reward Model in RLHF

新框架FiMi-RM解决了RLHF奖励模型中的长度偏差问题

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-25 04:00

研究人员开发了一个名为FiMi-RM的新框架，以解决强化学习人类反馈（RLHF）中使用的奖励模型的长度偏差问题。这种偏差会导致奖励模型偏好更长的回复，即使它们的质量并不更高。FiMi-RM分三个阶段进行：训练一个标准的奖励模型，使用一个轻量级模型来捕捉非线性的长度-奖励关系，然后将这种学习到的偏差整合到奖励模型中，以将长度与奖励分离。实验表明，FiMi-RM能够实现更平衡的长度-奖励分布，并通过减少冗长而不牺牲性能来改进直接偏好优化（DPO）等对齐算法。 AI

影响解决了RLHF中的一个关键限制，有望带来更对齐、更简洁的LLM回复。

排序理由学术论文，详细介绍了一种减轻RLHF奖励模型偏差的新方法。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Kangwen Zhao, Jianfeng Cai, Jinhua Zhu, Ruopei Sun, Dongyun Xue, Wengang Zhou, Li Li, Houqiang Li · 2026-06-25 04:00

Bias Fitting to Mitigate Length Bias of Reward Model in RLHF

arXiv:2505.12843v2 Announce Type: replace Abstract: Reinforcement Learning from Human Feedback (RLHF) relies on reward models to align large language models with human preferences. However, RLHF often suffers from reward hacking, wherein policy learning exploits flaws in the trai…

报道来源 [1]

Bias Fitting to Mitigate Length Bias of Reward Model in RLHF

相关实体

相关话题