研究人员开发了一个名为FiMi-RM的新框架,以解决强化学习人类反馈(RLHF)中使用的奖励模型的长度偏差问题。这种偏差会导致奖励模型偏好更长的回复,即使它们的质量并不更高。FiMi-RM分三个阶段进行:训练一个标准的奖励模型,使用一个轻量级模型来捕捉非线性的长度-奖励关系,然后将这种学习到的偏差整合到奖励模型中,以将长度与奖励分离。实验表明,FiMi-RM能够实现更平衡的长度-奖励分布,并通过减少冗长而不牺牲性能来改进直接偏好优化(DPO)等对齐算法。 AI
影响 解决了RLHF中的一个关键限制,有望带来更对齐、更简洁的LLM回复。
排序理由 学术论文,详细介绍了一种减轻RLHF奖励模型偏差的新方法。[lever_c_demoted from research: ic=1 ai=1.0]
- arXiv
- Direct Preference Optimization
- FiMi-RM
- Kangwen Zhao
- reinforcement learning from human feedback
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →