实体 FiMi-RM

FiMi-RM

PulseAugur coverage of FiMi-RM — every cluster mentioning FiMi-RM across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_109982 · Jun 25 · 04:00

新框架FiMi-RM解决了RLHF奖励模型中的长度偏差问题

研究人员开发了一个名为FiMi-RM的新框架，以解决强化学习人类反馈（RLHF）中使用的奖励模型的长度偏差问题。这种偏差会导致奖励模型偏好更长的回复，即使它们的质量并不更高。FiMi-RM分三个阶段进行：训练一个标准的奖励模型，使用一个轻量级模型来捕捉非线性的长度-奖励关系，然后将这种学习到的偏差整合到奖励模型中，以将长度与奖励分离。实验表明，FiMi-RM能够实现更平衡的长度-奖励分布，并通过减少冗长而不牺牲性能来改进直接偏好优化（…