English(EN) Failure Modes of Maximum Entropy RLHF

新研究揭示最大熵 RLHF 可能导致过度优化和不稳定的训练动态。

作者 PulseAugur 编辑部 · [1 个来源] · 2026-04-30 04:00

一篇新论文探讨了最大熵人类反馈强化学习 (RLHF) 的失效模式。研究人员发现，即使采用保守的学习率，这种方法也可能导致过度优化和不稳定的训练动态。与使用 KL 约束的方法不同，熵正则化并不能可靠地防止奖励攻击，有时反而与过度优化相关。该论文提出，在在线与离线偏好学习场景中，无参考方法可能面临不同的挑战。 AI

影响强调了在线 RLHF 训练中潜在的不稳定性，表明无参考方法在在线场景中可能需要不同于离线场景的应对策略。

排序理由学术论文，详细介绍了特定 RLHF 技术失效模式。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · \"Omer Veysel \c{C}a\u{g}atan, Bar{\i}\c{s} Akg\"un · 2026-04-30 04:00

最大熵 RLHF 的失效模式

arXiv:2509.20265v3 Announce Type: replace-cross Abstract: In this paper, we show that Simple Preference Optimization (SimPO) can be derived as Maximum Entropy Reinforcement Learning, providing a theoretical foundation for this reference-free method. Motivated by SimPO's strong pe…

报道来源 [1]

最大熵 RLHF 的失效模式

相关实体

相关话题