中文(ZH) 从最优传输角度训练奖励模型：让 RLHF 学会「忽略错误偏好」丨ICML 2026

SelectiveRM框架训练奖励模型以忽略嘈杂的人类反馈

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-15 07:39

来自浙江大学、小红书和北京大学的研究人员开发了SelectiveRM，一个用于训练大型语言模型中奖励模型的新颖框架。该方法解决了人类和AI生成反馈中常见的嘈杂或不准确的偏好数据问题。SelectiveRM不强迫模型拟合所有观察到的偏好，而是使用部分最优传输来选择性地对齐分布，识别并排除冲突或错误的数据点。这导致在下游人类反馈强化学习（RLHF）过程中，奖励函数更可靠，安全性得到提高。 AI

影响这项研究为训练奖励模型提供了一种更符合原则的方法，通过过滤掉错误的反馈，有可能带来更安全、更可靠的AI系统。

排序理由该集群描述了一篇关于在LLM中训练奖励模型的新颖框架的新研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在雷峰网 (Leiphone) 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

雷峰网 (Leiphone) TIER_1 中文(ZH) · 2026-06-15 07:39

Training Reward Models from Optimal Transport Perspective: Enabling RLHF to Learn to 'Ignore Incorrect Preferences' | ICML 2026

<section style="text-align: center; margin: 0px 16px; line-height: 1.75em; display: block;"><img class="rich_pages wxw-img" src="https://static.leiphone.com/uploads/new/images/20260615/6a2fab1e1957c.jpg?imageMogr2/quality/90" style="width: 100%; display: inline-block; text-align:…

报道来源 [1]

Training Reward Models from Optimal Transport Perspective: Enabling RLHF to Learn to 'Ignore Incorrect Preferences' | ICML 2026

相关实体

相关话题