PulseAugur
实时 22:16:08
实体 Simple Preference Optimization

Simple Preference Optimization

PulseAugur coverage of Simple Preference Optimization — every cluster mentioning Simple Preference Optimization across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_10112 ·

    新研究揭示最大熵 RLHF 可能导致过度优化和不稳定的训练动态。

    一篇新论文探讨了最大熵人类反馈强化学习 (RLHF) 的失效模式。研究人员发现,即使采用保守的学习率,这种方法也可能导致过度优化和不稳定的训练动态。与使用 KL 约束的方法不同,熵正则化并不能可靠地防止奖励攻击,有时反而与过度优化相关。该论文提出,在在线与离线偏好学习场景中,无参考方法可能面临不同的挑战。