实体 Simple Preference Optimization

Simple Preference Optimization

PulseAugur coverage of Simple Preference Optimization — every cluster mentioning Simple Preference Optimization across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 1

发布 · 30天

90 天内 0

论文 · 30天

90 天内 1

层级分布 · 90 天

主题

安全 1
论文 1

最近 · 第 1/1 页 · 共 1 条

RESEARCH · CL_10112 · Apr 30 · 04:00

新研究揭示最大熵 RLHF 可能导致过度优化和不稳定的训练动态。

一篇新论文探讨了最大熵人类反馈强化学习 (RLHF) 的失效模式。研究人员发现，即使采用保守的学习率，这种方法也可能导致过度优化和不稳定的训练动态。与使用 KL 约束的方法不同，熵正则化并不能可靠地防止奖励攻击，有时反而与过度优化相关。该论文提出，在在线与离线偏好学习场景中，无参考方法可能面临不同的挑战。

新研究揭示最大熵 RLHF 可能导致过度优化和不稳定的训练动态。