一篇新论文探讨了最大熵人类反馈强化学习 (RLHF) 的失效模式。研究人员发现,即使采用保守的学习率,这种方法也可能导致过度优化和不稳定的训练动态。与使用 KL 约束的方法不同,熵正则化并不能可靠地防止奖励攻击,有时反而与过度优化相关。该论文提出,在在线与离线偏好学习场景中,无参考方法可能面临不同的挑战。 AI
影响 强调了在线 RLHF 训练中潜在的不稳定性,表明无参考方法在在线场景中可能需要不同于离线场景的应对策略。
排序理由 学术论文,详细介绍了特定 RLHF 技术失效模式。
- arXiv
- KL dynamics
- Maximum Entropy RL
- Maximum Entropy RLHF
- Ömer Veysel Çağatan
- Simple Preference Optimization
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →