PulseAugur
实时 15:24:54
实体 FiMi-RM

FiMi-RM

PulseAugur coverage of FiMi-RM — every cluster mentioning FiMi-RM across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_109982 ·

    新框架FiMi-RM解决了RLHF奖励模型中的长度偏差问题

    研究人员开发了一个名为FiMi-RM的新框架,以解决强化学习人类反馈(RLHF)中使用的奖励模型的长度偏差问题。这种偏差会导致奖励模型偏好更长的回复,即使它们的质量并不更高。FiMi-RM分三个阶段进行:训练一个标准的奖励模型,使用一个轻量级模型来捕捉非线性的长度-奖励关系,然后将这种学习到的偏差整合到奖励模型中,以将长度与奖励分离。实验表明,FiMi-RM能够实现更平衡的长度-奖励分布,并通过减少冗长而不牺牲性能来改进直接偏好优化(…